苹果员工自揭其短：生成式AI已落后行业巨头两年多；传快手AI芯片业务独立运营；芯片巨头Marvell...

AI科技评论 · 公众号 · · 2024-10-22 18:09

正文

请到「今天看啥」查看全文

据媒体报道，台积电董事长兼首席执行官魏哲家最近确认了人工智能（AI）的需求是“真实的”，表示未来五年内，台积电有望实现连续、健康的增长。客户对于 2nm 的询问多于 3nm，看起来更受客户的欢迎。

据统计，在 2024 年第三季度里，3nm、5nm 和 7nm 工艺的出货量分别占台积电总收入的 20%、32% 和 17%，主要增长动力来自于 3nm 工艺的收入推动。目前 3nm 显示出强劲的出货势头，占比相比第一和第二季度的 9% 和 15% 有较大幅度攀升。

在主要客户的支持下，3nm 的贡献在明年会继续上升，到了 2026 年仍然是台积电收入的主要驱动力。按照台积电的说法，2nm 不但能复制 3nm 的成功，甚至有超越的势头。有市场研究机构表示，苹果、英伟达和 AMD 等科技巨头都将成为台积电 2nm 的首批客户。（快科技）

智源发布原生多模态世界模型 Emu3，实现图像、文本、视频大一统

10 月 21 日，智源研究院正式发布原生多模态世界模型 Emu3。智源研究院表示，Emu3 模型只基于下一个 token 预测，无需扩散模型或组合方法，即可完成文本、图像、视频三种模态数据的理解和生成。Emu3 提供了一个强大的视觉 tokenizer，能够将视频和图像转换为离散 token。这些视觉离散 token 可以与文本 tokenizer 输出的离散token 一起送入模型中。

与此同时，该模型输出的离散 token 可以被转换为文本、图像和视频，为 Any-to-Any 的任务提供了更加统一的研究范式。而在此前，社区缺少这样的技术和模型。Emu3 在图像生成、视频生成、视觉语言理解等任务中超过了 SDXL 、LLaVA、OpenSora 等知名开源模型。（相关内容可点击智源 Emu3 证明多模态模型新范式：只需基于下一个 token 预测）

中国移动上海产业研究院：金融领域 AI 大模型渗透率过半，系行业最高

在 2024 金融街论坛年会“AI + 金融赋能数字金融新篇章”平行论坛上，中国移动上海产业研究院副总经理陈豫蓉介绍，金融领域是大模型渗透率最高的行业，渗透率超过 50%。智慧销售、智能问答和智能风控是现阶段金融行业最热门，也是应用成熟度最高的 AI 大模型应用场景。

从报道获悉，金融业具备大规模、高质量的数据资源和多维度、多元化的应用场景，被视为大模型技术应用的最优行业之一。国家金融与发展实验室理事长李扬表示，AI 的能力构成了各个基础学科、各个行业的能力，从而构成了各个国家能力的基础。“毫无疑问，今后金融的发展必将被 AI 全面渗透并被全面改造。”

但原中国银监会主席尚福林认为，大模型具备不透明、不可预知等方面的风险。工商银行首席技术官吕仲涛提出，要加强 AI 潜在风险研判、防范，“大模型技术的应用存在‘双刃剑’，大模型技术提升工作效率，同时生成伪造内容、数据泄露等安全风险也日益突出。”（IT之家）

北京新增 12 款已完成备案的生成式人工智能服务，快手可灵 AI 等在内

截至 10 月 21 日，北京市新增 12 款已完成备案的生成式人工智能服务，累计已完成 94 款生成式人工智能服务备案。这次备案的新增服务可以为广大用户带来更多的选择与便利。根据发布的名单显示，北京快手科技公司的可灵 AI、昆仑万维科技股份有限公司的天工图像均在本次新增备案名单内。（AIbase基地）

百度投资理工科助教编程大模型HiBug，持股8.33%

近日，北京一平方科技有限公司发生工商变更，新增北京百度网讯科技有限公司为股东，公司注册资本由约 119.5 万人民币增至约 130.3 万人民币，同时新增两位董事。北京一平方科技有限公司成立于 2020 年 11 月，法定代表人为刘春江，经营范围含计算机系统服务、基础软件服务、应用软件服务、数据处理等，由刘春江、天津圆梦平方科技合伙企业（有限合伙）、宁波风和股权投资合伙企业（有限合伙）等共同持股。

该公司是一家致力于自然语言处理技术和大模型的关键技术研发的企业，其产品 HiBug，通过自研大模型为程序开发人员提供高效的 AI 编程工具。天眼查融资历程信息显示，自成立以来，HiBug 先后获得风和投资和奇绩创坛两轮融资。（亿欧网）

阿里达摩院开源DocOwl1.5文档处理模型，无需OCR，高效“读懂”文档

阿里巴巴达摩院与中国人民大学近日联合开源了一款名为 mPLUG-DocOwl1.5 的文档处理模型，该模型主打无需 OCR 识别即可理解文档内容，并在多个视觉文档理解基准测试中取得了领先的性能。

现有的多模态大型语言模型 (MLLM) 虽然具备文本识别能力，但缺乏对富文本文档图像的通用结构理解能力。为了解决这一问题，mPLUG-DocOwl1.5 强调结构信息在视觉文档理解中的重要性，并提出了 “统一结构学习” 来提升 MLLM 的性能。该模型的“统一结构学习”涵盖了 5 个领域:文档、网页、表格、图表和自然图像，包括结构感知解析任务和多粒度文本定位任务。（AIbase基地）

美的集团成立新公司：含 AI 硬件销售业务