专栏名称: 独角兽智库
独角兽智库是一个新兴产业投研平台,搭建新兴领域高端技术与投资机构、传统行业的桥梁,让专业的资本找到优质的企业,实现新兴产业的快速发展。平台提供新兴产业干货报告、专家咨询服务。
目录
相关文章推荐
创伙伴  ·  泡泡玛特,怎么这么难学? ·  昨天  
智谷趋势Trend  ·  算力航母重组启航!如何把握国产替代机遇 ·  昨天  
智谷趋势Trend  ·  算力航母重组启航!如何把握国产替代机遇 ·  昨天  
中国组织人事报  ·  人力资源社会保障部(国家外国专家局)在京举办 ... ·  2 天前  
中国组织人事报  ·  人力资源社会保障部(国家外国专家局)在京举办 ... ·  2 天前  
51好读  ›  专栏  ›  独角兽智库

机器人聚焦

独角兽智库  · 公众号  · 科技投资  · 2025-03-01 22:54

正文

请到「今天看啥」查看全文


但我们发现市场对于具身智能大模型的认知还相当粗浅,下文希望通俗易懂的讲明白, 我们需要什么样的具身智能大模型?我们离真正的具身智能大模型还有多远?


问题一:具身智能大模型(VLA)是什么?
VLA(Vision-Language-Action)大模型指的是视觉-语言-动作大模型,能够让机器人通过理解环境和语言指令,并通过执行模块输出为动作。


问题二:VLA大模型中分层和端到端模式的区别?业界目前的选择是什么?
VLA模型在执行过程中,一般有三个步骤——1)接收并理解语音和图像输入;2)根据接收的信息做推理决策;3)根据决策生成动作指令并控制机器人运动。 简单来说,如果这三个步骤是在一个模型中完成的,则被是端到端大模型,如果这三个步骤分别是调用三个不同的模型完成,则是分层模型。
端到端模式的优缺点: 1)优点在于反应速度快+规模化+能够实现智能涌现;2)缺点在于难度高+需要大量训练数据+短期难以落地。
结论&现实情况: 短期视角来看,目前国内初创人形机器人企业多采用分层模式,主要是为了快速商业化落地;仅有少数企业例如特斯拉、星动纪元等坚持端到端模型,但从长期视角来看,端到端模式是最终实现具身智能涌现的必要条件。
图片



问题三:为何我们无法训练出好用的端到端具身智能大模型——瓶颈在于数据。
1)数据量差距巨大: 相较于VLM大模型亿条级别的数据量,目前机器人实际单一场景的训练数据量仅仅在千条和万条级别,差距百倍。
2)机器人数据获取难度极高: 相较于互联网上常见的语料供VLM大模型训练,机器人训练数据获取难度极高。目前有两种数据获取模式:
①真实数据遥操采集: 问题在于成本极高,目前动捕设备一套价格在几十万区间,初创企业如果要靠动捕设备遥操采集数据,成本非常高;
②虚拟生成数据: 例如银河通用发布的GraspVLA,通过虚拟仿真技术生成数据,用于机器人训练,但目前难以解决sim-to-real gap。 简单来说,就是用虚拟仿真数据训练机器人效果很差,如果是简单的抓放搬运场景,虚拟数据相对可行 但如果涉及到柔性场景,比如说衣服被子等柔性物体,就很难运用。 因为涉及到柔性物体形变的仿真,在物理层面本身就很难建模。
③真人数据映射: UMI和DexCap(斯坦福机器人团队)等正在探索真人数据映射(即采集真实人的数据,通过某种映射关系转化为机器人数据),但目前还比较早期。
3)遥操采集的数据本身存在毒性: ①人在运动过程中会有额外的运动轨迹: 例如简单的搬箱子,人在遥操录制过程中,可能会因为外界干扰停顿几秒,但这个停顿对于机器人来说就存在毒性,因为其无法理解人为什么要停顿。 ②人的运动轨迹和机器人不一致: 目前市面上大量机器人都是以旋转关节为主,而人的上下肢是直线关节,因此同样是搬箱子的动作,人和机器人的运动轨迹就是不一致的,这时候用真人的数据去训练机器人本身就存在毒性。
4)机器人本体方案未收敛导致数据难以复用: 例如用特斯拉本体采集的数据很难给智元的机器人来训练,因为本体方案不同。


问题四:数据端存在这么多问题,业界如何解决?
真实的情况是,业界目前还无法解决上述数据端的问题。 但目前各家都选择在自己的方案上努力收集数据,先在单一场景下实现一定程度的泛化,从而让更多人形机器人投入实际运用。 我们认为可能是3-5年后,当市场上有足够多的人形机器人数据,并且硬件方案逐步收敛,具身智能基础模型呈现出一定的智能涌现,才有可能实现真正的端到端具身智能大模型。


问题五:能否采用Deepseek的范式来加速具身智能大模型的发展?
Deepseek是通过pre-train+post-train(强化学习)的模式,并且导入高质量数据,来降低大模型的算力和数据量需求。 但目前来看,这种范式对具身智能大模型来说,路径是正确的,但基本要素还不具备。一方面,具身智能大模型并没有一个强大的基础模型;另一方面,也不存在一个完善的强化学习流程。 学界一直在推行所谓的模仿学习+后训练强化学习的方案(类似于deepseek的路线),就是通过模仿学习达成0-1,然后通过强化学习达成1-10,但目前来看必要条件还未达成。


问题六:Figure Helix大模型详解和局限点解析:






请到「今天看啥」查看全文