主要观点总结
本文介绍了在蚂蚁集团的技术开放日上,关于人工智能(AI)和机器学习领域的讨论和分享,包括多模态大模型、具身大模型、世界模型、现有Transformer架构的优缺点、未来模型架构的可能性,以及大模型在垂直领域的应用技术等。
关键观点总结
关键观点1: 多模态大模型的现状与未来
阿里巴巴集团副总裁许主洪介绍了多模态大模型的定义、技术方向、未来演进趋势和行业面临的挑战。他强调了多模态大模型在处理文本、图像、语音、视频等多模态数据方面的能力,以及实现通用人工智能(AGI)的关键作用。
关键观点2: 具身大模型与机器人技术的结合
智平方创始人兼CEO郭彦东详细阐述了具身大模型技术,以及智平方在该领域的创新实践。他讨论了具身大模型在机器人行业的应用潜力,以及其对通用智能带来的突破。
关键观点3: 世界模型的概述与机器人结合的机会
星尘智能(深圳)有限公司CEO来杰介绍了世界模型的发展历程和由来,以及对世界模型和机器人结合的期待。他强调了世界模型基于人类感官和知识构建,旨在理解世界并与之互动的重要性。
关键观点4: 现有Transformer架构的优势与不足
香港大学计算机科学系助理教授孔令鹏讨论了现有Transformer架构的成功原因以及未来的发展空间。他提到了模型的智能拓展和创作能力,以及模型的可解释性和幻觉问题。
关键观点5: 未来模型架构的可能性
多位嘉宾讨论了未来模型架构的可能发展方向,包括基于Diffusion扩散架构的语言模型、MoE(Mixture of Experts)架构、线性注意力(Linear Attention)和稀疏注意力(Sparse Attention)等技术在多模态领域的应用和探索。
关键观点6: 大模型在垂直领域的应用技术
蚂蚁数字医疗健康AI技术负责人魏鹏介绍了蚂蚁AI健康管家在医疗领域的应用实践,以及面临的挑战和应对策略。他强调了数据、训练方法和专业推理在医疗AI中的重要性。
正文
关于未来多模态大模型演进趋势,许主洪指出,当前行业探索方向包括同时处理理解与生成任务的统一多模态大模型、多模态推理模型,以及多模态智能体等。其中,统一多模态大模型是当前行业热门方向,旨在设计一个同时处理理解与生成任务的框架,后续可能会结合自回归模型和扩散模型。多模态推理模型通过强化学习和长思维链提升推理能力,处于早期探索阶段。多模态智能体是研究热点,可识别多模态信息并完成任务操作。GUI智能体和具身智能体概念备受关注,但行业处于早期阶段,需更多迭代。
“我们现在看到了多模态大模型的一些进步,但是要真正设计一个通用的人工智能技术,还有很多的技术模块需要提升,包括最底层的多模态模型的能力,智能体模块的设计,以及数字世界的交互,物理世界的控制,都是非常有挑战的问题,但这些也是技术的机会,希望未来在这方面有更多的探索。”许主洪在演讲最后对多模态大模型的前景寄予了期待。
智平方创始人兼CEO郭彦东详细阐述了具身大模型技术,以及智平方在该领域的创新实践。
他指出,具身大模型(如VLA)是机器人行业的革命性技术,它使机器人能够理解环境和人类指令,并在物理世界中完成复杂任务。VLA模型的输入是人类文本指令和环境信息,通过对信息的编码深刻理解环境和指令,并利用预训练技术积累常识,输出则是机器人动作的编码信息,实现端到端的数据驱动,让机器人越用越聪明。VLA模型在机器人行业具有巨大潜力,尽管目前存在感知能力不足、控制不够丝滑等问题,但通过技术改进,如提升空间感知能力、优化动作生成机制以及引入快慢系统以实现长程推理和快速响应,VLA模型将得到不断迭代。
那么具身大模型能够为通用智能带来哪些突破?智平方提出了GO-VLA模型,结合空间智能和快慢系统,使机器人能够在开放环境中实现全身丝滑控制,从桌面操作到开放环境任务,从机械臂控制到全身控制,从简单指令到长程任务,展现了广泛的应用前景。硬件形态上,智平方提出了轮式双臂的AlphaBot2平台,在汽车、半导体等先进制造场景以及机场等公共场景提供服务。
郭彦东总结了智平方具身机器人的发展的三个核心的阶段:第一阶段是技术突破,通过持续提出VLA创新方法,让技术获得领先;第二阶段是系统驱动,以搜索引擎级别的数据平台、高效迭代的模型训练平台以及准量产的硬件平台支撑产业级的技术产品革新以及商业化拓展。第三阶段是生态闭环阶段,通过上述三大系统级平台支撑,加上客户、场景以及机器人应用,获得海量的数据闭环,这是最核心的商业壁垒。这也是具身智能发展,尤其是具身智能公司所要聚焦的三个最核心的阶段。
3
什么是世界模型
世界模型和机器人结合会带来哪些机会?