从「悟道」到「悟界」，智源走进大模型的新时代

AI科技评论 · 公众号 · · 2025-06-06 21:43

正文

请到「今天看啥」查看全文

在2025年北京智源大会上，智源重磅介绍了原生多模态世界模型Emu3，这是全球首个原生多模态世界模型，是多模态技术发展的重要里程碑。

跨模态交互的强大基座

Emu3是基于下一个token预测范式统一多模态学习，无需扩散模型或组合式架构的复杂性，在多模态混合序列上从头开始联合训练一个Transformer模型。

智源研究院院长王仲远

“走向物理世界的多模态模型的技术壁垒在模型本身，因为技术路线就没有收敛。”王仲远说。

当前主流方案普遍存在这样的一种困境：当以强大的语言模型（LLM）作为基座，融合视觉、听觉等模态进行训练时，语言能力常出现显著退化。这导致训练出来的模型语言能力与其他能力此消彼长，无法统一。

虽然在某些垂直领域中，多模态的某些能力比人类更强，比如人脸识别，机器的识别能力是人的无数倍，但是人类大脑不会因为收到更多信息之后突然不会说话了。为什么会出现这种问题，以及如何解决这种问题，成为了智源在研发Emu3的过程中希望探索的技术原理。

传统模型则只能处理一种类型，而该模型实现了视频、图像、文本三种模态的任意组合理解与生成。

Emu3架构从根本上规避了传统多模态模型的“此消彼长”缺陷：视觉语义不再挤占语言参数空间，而是通过符号化对齐实现知识无损融合。Emu3验证了“物理世界离散语义化” 路线的可行性，为多模态AGI提供了可扩展的技术收敛框架，使语言模型的推理生成能力首次真正覆盖物理时空维度。

这款模型支持多模态输入、多模态输出的端到端映射，验证了自回归框架在多模态领域的普适性与先进性，为跨模态交互提供了强大的技术基座。可以说，作为原生多模态统一架构，智源的Emu3让大模型初步具备理解和推理世界的能力。

见微Brainμ和OpenComplex 2

基于Emu3的底层架构，智源研究院推出了见微Brainμ。这也是本次北京智源大会最引人注目的模型之一。

它将fMRI、EEG、双光子等神经科学与脑医学相关的脑信号统一token化，并且具备强大的多模态对齐能力，能够实现脑信号与文本、图像等模态的多向映射，支持跨模态的理解与生成。在能力方面，见微Brainμ可以完成多种神经科学任务，如自动化睡眠分型、感官信号重建和多种脑疾病诊断等。

Brainμ实现了跨任务、跨模态、跨个体的统一建模，具有创新性、通用性和广泛的应用潜力，为神经科学和脑医学研究提供了强大的工具。现在，智源正在与国内前沿的基础神经科学实验室、脑疾病研究团队和脑机接口团队深入合作，包括北京生命科学研究所、清华大学、北京大学、复旦大学与强脑科技BrainCO，拓展Brainμ的科学与工业应用。

全原子微观生命模型OpenComplex2，则是实现了生物分子研究从静态结构预测到动态构象分布建模的重大突破。

OpenComplex2模型在生物分子动态特性预测、柔性系统及超大型复合物建模、生物分子相互作用精细化分析等关键任务中性能卓越，突破了静态结构预测的瓶颈。不仅可以预测蛋白质单体结构，还可进行复合物结构建模、分子间相互作用预测等，为探索蛋白质的生物学功能提供了新的途径。

智源研究院发布的多模态大模型是为了推动AI从数字世界走向物理世界，更利于解决物理需求。目前，物理世界的多模态现在还没有完全解决，以智源为代表的全球研究机构都会在这条道路上进行不懈探索。

向着前沿技术路径预研和探索

在今天的智源具身智能会客厅中，银河通用的具身大模型机器人Galbot登台展示了端到端VLA大模型在商业零售场景的落地应用。

宇树G1登台，展示了敏捷帅气的“组合拳”。