正文
作为物理世界中的智能体,有了空间智能就有了具身智能。现阶段,大模型大多以语言或2D图片训练,把一个3D场景逆势回2D图很简单,但2D图片却无法准确还原成3D场景。
对此,香港中文大学(深圳)数据科学学院助理教授刘桂良认为,“重新训练一个模型,让它能理解3D知识,尝试把大模型、空间智能、运动规划与控制连接在一起”,是使具身智能在scaling law范式下进行发展的前提。
刘教授也着重分享了“数据-仿真-AI-部署”的落地闭环方案,基于此,跨维智能开发了实现通用机器人智能的AI和合成数据引擎DexVerse™,以及背后提供支持的一系列具身智能关键技术,包括3D生成式AI、可微分仿真和渲染、3D基础模型的架构设计和学习、模型轻量化等。另外,跨维智能也推出了首款高通用性具身人形机器人,将自身的核心技术积累进行产品化落地。
百度智能云参与具身智能产业赛道的角色定位是产业赋能者,聚焦于支撑客户做好关键技术及产品的研发工作。
具体到具身智能机器人应用落地面临的挑战,百度智能云泛科技行业具身智能赛道负责人张龙君提到,当前业界主要围绕“负责high-level指令理解和任务规划的“大脑”、负责移动控制和操作控制的“小脑”、服务于具身模型训练的具身智能数据集建设、以及本体软硬件相关能力建设”四个方面展开攻坚工作。
对此,百度智能云具身智能解决方案,主要提供包括AI Infra、具身数据采标服务、云上仿真平台、大语言模型及开发平台、人机语音交互方案、云管端一体化安全六大方向的支持,全方位助力厂商企业构建产品核心能力。
NVIDIA中国区机器人解决方案架构师总监舒家明分享到,“正是因为大模型能力已演进到一定地步,才让物理AI(Physical AI)变得可行或者说可实现”。
大模型的理解、推理能力使机器人可以脱离“遥控器”,从按步骤运行的“指令式”进化出“大脑”,但它无法解决具身智能完成任务的过程,如开抽屉、炒菜颠勺等具体事项,这些可以通过仿真实现机器人的强化学习。
同时,仿真也是最低成本的获得有效数据的最佳方式。
“和很多同行交流时,会听到大家用‘革命性’这个词来描述大模型给行业带来的影响”,面壁智能副总裁周树峰回忆称:
“这种’革命性’来源于感知革命。
”过去,具身系统专注在突破导航、控制、操作等方面的能力,大模型的引入会极大提高具身大脑的认知、推理、决策和理解力,进而可以从竞赛和科研场景中,延展到工厂、家居等商业场景。
面壁智能是一家专注端侧大模型的公司,在端侧模型实现了多项突破。在基座模型上以4B参数达到了GPT-3.5水平,9月份发布的MiniCPM-V2.6多模态模型达到端侧GPT-4V。今年2月发布以来,面壁小钢炮MiniCPM系列累计下载量近400万,在Hugging Face「2024最受欢迎榜单模型」榜单位列中国第一。此前,面壁智能已经演示了高效端侧模型运行在人形机器人的合作案例,百度智能云将与面壁智能共同优化云端协同方案,将端侧大模型能力跟云端大模型能力协同起来,提升端侧响应效率,帮助具身智能机器人完成更加复杂的任务。
“端侧大算力难以解决所有问题”,地瓜机器人开发者生态副总裁胡春旭总结道:
“未来的机器人一定是端云一体化的,端侧不会只做纯执行,需要有一定智能化水平,同时,具备大量知识的模型需要通过云的方式介入。
”
地瓜机器人是从头部智驾科技公司地平线拆分出来的业务,面向机器人市场打造软硬件通用底座,把地平线自动驾驶的成功路径,在具身智能复制一遍。目前百度智能云也正协同地瓜机器人推动地瓜机器人的端侧算力产品在具身智能赛道、智能硬件赛道的落地。