人工智能半月刊第170期（2025.04.12）

计算机司令部 · 公众号 · · 2025-04-12 21:35

正文

请到「今天看啥」查看全文

1.2 开源加速AI平权进程，多模态推动AI应用长期发展

1.2.1 阿里：发布Qwen2.5-Omni 多模态旗舰模型，已经实现开源

阿里近期发布Qwen2.5-Omni 多模态旗舰模型，并已经实现开源。 Qwen2.5-Omni是Qwen模型家族新一代端到端多模态旗舰模型，可处理文本、图像、音频和视频等多种输入，实现实时流式响应，同步生成文本与自然语音输出。 目前已在Hugging Face、ModelScope、DashScope 和GitHub开源 ，用户能通过Demo体验互动功能，或用Qwen Chat进行语音、视频聊天。

Qwen2.5-Omni在图像、音频、音视频等模态下超越类似单模态和封闭源模型， 如 Qwen2.5 - VL - 7B、Qwen2 - Audio 和 Gemini - 1.5 - pro。在多模态任务OmniBench达到SOTA水平，单模态任务（语音识别、翻译、音频理解、图像推理、视频理解、语音生成）中表现优秀。

1.2.2 字节跳动：发布了全新的通信优化系统COMET并实现开源

字节跳动的豆包大模型团队发布了全新的通信优化系统 COMET。 通过更精准、细粒度的计算-通信重叠技术，系统在大规模MoE模型上可达到单层1.96倍加速，端到端平均1.71倍效率提升，且在不同并行策略、输入规模及硬件环境下均表现稳定。目前，COMET 已实际应用于万卡级生产集群，助力MoE模型高效训练，并已累计节省了数百万GPU小时资源。此外，COMET还可与豆包大模型团队此前发布的新一代稀疏模型架构UltraMem结合，实现协同优化。

技术上，COMET 引入两项关键机制，以最小化整体延迟并提升流水线性能。 1）共享张量依赖解析：沿Token维度（M）或隐层维度（N）分解共享张量，使通信与计算最小单元对齐；动态调整数据块计算顺序，优先计算本地数据块，异步拉取远程Token，减少等待延迟。2）自适应负载分配：将通信与计算任务封装在独立线程块中，避免远程I/O阻塞计算核心；根据输入规模和并行策略实时调整线程块分配，通过预编译多个版本的计算 - 通信融合算子实现运行时 “零开销” 算子动态切换。

大规模落地验证： 在8卡H800实验集群中，COMET使端到端MoE模型前向时延降低31.8%-44.4%，单个MoE 层执行时间显著短于基线方案，速度提1.28-2.37倍。COMET已在万卡级生产集群应用，累计节省数百万GPU小时，具有强鲁棒性和泛化能力。

同时较为重要的是，COMET 约 1.2 万行 C++ 和 CUDA 代码及2千行 Python 代码已开源，提供友好 Python API，建立细粒度流水线编程范式，可与现有框架结合，支持多种并行模式和插拔式部署，还计划兼容 Triton 等编译生态。

1.2.3 DeepSeek：DeepSeek-V3 模型更新，各项能力全面进阶

3月24日杭州深度求索人工智能基础技术研究有限公司发布了 DeepSeek-V3 模型的更新版本——DeepSeek-V3-032。1）推理任务进步显著： 借鉴 DeepSeek-R1 的强化学习技术，在数学、代码类相关评测集上取得了超过 GPT-4.5 的得分成绩。 2） 前端开发能力增强： 生成的 HTML 等代码可用性更高，视觉效果更美观。以多球系统为例，现在有5个小球在六边形内运动，有 “ADD BALL” 按钮可增加球，实现球间碰撞检测和改进的物理系统。 3） 中文写作质量升级： 基于R1的写作水平优化，中长篇文本创作质量提升。如以赤壁为关键词创作的关于苏轼生平的散文，以及生成的中篇爱情小说《听见你的声音》剧情和章节内容。 4） 中文搜索能力优化： 联网搜索场景下，报告生成类指令输出内容更详实准确、排版更清晰。以设计男士专用贴片面膜的市场调研为例，能全面分析市场现状并提供产品开发思路。

1.2.4 谷歌：发布Gemma 3原生支持多模态

谷歌将开源 Gemma 系模型迭代到第三代，推出1B、4B、12B和27B四种参数版本，原生支持多模态，上下文长度达 128k（1B 模型为 32k）。 在LMArena竞技场中，Gemma 3拿下了1339 ELO高分，仅以27B参数击败了o1-preview、o3-mini high、DeepSeek V3，堪称仅次于DeepSeek R1最优开源模型。在多项基准测试中，Gemma 3全家桶相较于上一代实现了全面提升，27B模型在数学性能提升33-45分。