正文
1.2 开源加速AI平权进程,多模态推动AI应用长期发展
1.2.1 阿里:发布Qwen2.5-Omni 多模态旗舰模型,已经实现开源
阿里近期发布Qwen2.5-Omni 多模态旗舰模型,并已经实现开源。
Qwen2.5-Omni是Qwen模型家族新一代端到端多模态旗舰模型,可处理文本、图像、音频和视频等多种输入,实现实时流式响应,同步生成文本与自然语音输出。
目前已在Hugging Face、ModelScope、DashScope 和GitHub开源
,用户能通过Demo体验互动功能,或用Qwen Chat进行语音、视频聊天。
Qwen2.5-Omni在图像、音频、音视频等模态下超越类似单模态和封闭源模型,
如 Qwen2.5 - VL - 7B、Qwen2 - Audio 和 Gemini - 1.5 - pro。在多模态任务OmniBench达到SOTA水平,单模态任务(语音识别、翻译、音频理解、图像推理、视频理解、语音生成)中表现优秀。
1.2.2 字节跳动:发布了全新的通信优化系统COMET并实现开源
字节跳动的豆包大模型团队发布了全新的通信优化系统 COMET。
通过更精准、细粒度的计算-通信重叠技术,系统在大规模MoE模型上可达到单层1.96倍加速,端到端平均1.71倍效率提升,且在不同并行策略、输入规模及硬件环境下均表现稳定。目前,COMET 已实际应用于万卡级生产集群,助力MoE模型高效训练,并已累计节省了数百万GPU小时资源。此外,COMET还可与豆包大模型团队此前发布的新一代稀疏模型架构UltraMem结合,实现协同优化。
技术上,COMET 引入两项关键机制,以最小化整体延迟并提升流水线性能。
1)共享张量依赖解析:沿Token维度(M)或隐层维度(N)分解共享张量,使通信与计算最小单元对齐;动态调整数据块计算顺序,优先计算本地数据块,异步拉取远程Token,减少等待延迟。2)自适应负载分配:将通信与计算任务封装在独立线程块中,避免远程I/O阻塞计算核心;根据输入规模和并行策略实时调整线程块分配,通过预编译多个版本的计算 - 通信融合算子实现运行时 “零开销” 算子动态切换。
大规模落地验证:
在8卡H800实验集群中,COMET使端到端MoE模型前向时延降低31.8%-44.4%,单个MoE 层执行时间显著短于基线方案,速度提1.28-2.37倍。COMET已在万卡级生产集群应用,累计节省数百万GPU小时,具有强鲁棒性和泛化能力。
同时较为重要的是,COMET 约 1.2 万行 C++ 和 CUDA 代码及2千行 Python 代码已开源,提供友好 Python API,建立细粒度流水线编程范式,可与现有框架结合,支持多种并行模式和插拔式部署,还计划兼容 Triton 等编译生态。
1.2.3 DeepSeek:DeepSeek-V3 模型更新,各项能力全面进阶
3月24日杭州深度求索人工智能基础技术研究有限公司发布了 DeepSeek-V3 模型的更新版本——DeepSeek-V3-032。1)推理任务进步显著:
借鉴 DeepSeek-R1 的强化学习技术,在数学、代码类相关评测集上取得了超过 GPT-4.5 的得分成绩。
2)
前端开发能力增强:
生成的 HTML 等代码可用性更高,视觉效果更美观。以多球系统为例,现在有5个小球在六边形内运动,有 “ADD BALL” 按钮可增加球,实现球间碰撞检测和改进的物理系统。
3)
中文写作质量升级:
基于R1的写作水平优化,中长篇文本创作质量提升。如以赤壁为关键词创作的关于苏轼生平的散文,以及生成的中篇爱情小说《听见你的声音》剧情和章节内容。
4)
中文搜索能力优化:
联网搜索场景下,报告生成类指令输出内容更详实准确、排版更清晰。以设计男士专用贴片面膜的市场调研为例,能全面分析市场现状并提供产品开发思路。
1.2.4 谷歌:发布Gemma 3原生支持多模态
谷歌将开源 Gemma 系模型迭代到第三代,推出1B、4B、12B和27B四种参数版本,原生支持多模态,上下文长度达 128k(1B 模型为 32k)。
在LMArena竞技场中,Gemma 3拿下了1339 ELO高分,仅以27B参数击败了o1-preview、o3-mini high、DeepSeek V3,堪称仅次于DeepSeek R1最优开源模型。在多项基准测试中,Gemma 3全家桶相较于上一代实现了全面提升,27B模型在数学性能提升33-45分。