机器人聚焦_独角兽智库的专栏文章_微信文章

问题一：具身智能大模型（VLA）是什么？

VLA（Vision-Language-Action）大模型指的是视觉-语言-动作大模型，能够让机器人通过理解环境和语言指令，并通过执行模块输出为动作。

问题二：VLA大模型中分层和端到端模式的区别？业界目前的选择是什么？

VLA模型在执行过程中，一般有三个步骤——1）接收并理解语音和图像输入；2）根据接收的信息做推理决策；3）根据决策生成动作指令并控制机器人运动。简单来说，如果这三个步骤是在一个模型中完成的，则被是端到端大模型，如果这三个步骤分别是调用三个不同的模型完成，则是分层模型。

端到端模式的优缺点： 1）优点在于反应速度快+规模化+能够实现智能涌现；2）缺点在于难度高+需要大量训练数据+短期难以落地。

结论&现实情况：短期视角来看，目前国内初创人形机器人企业多采用分层模式，主要是为了快速商业化落地；仅有少数企业例如特斯拉、星动纪元等坚持端到端模型，但从长期视角来看，端到端模式是最终实现具身智能涌现的必要条件。

问题三：为何我们无法训练出好用的端到端具身智能大模型——瓶颈在于数据。

1）数据量差距巨大：相较于VLM大模型亿条级别的数据量，目前机器人实际单一场景的训练数据量仅仅在千条和万条级别，差距百倍。

2）机器人数据获取难度极高：相较于互联网上常见的语料供VLM大模型训练，机器人训练数据获取难度极高。目前有两种数据获取模式：

①真实数据遥操采集：问题在于成本极高，目前动捕设备一套价格在几十万区间，初创企业如果要靠动捕设备遥操采集数据，成本非常高；

②虚拟生成数据：例如银河通用发布的GraspVLA，通过虚拟仿真技术生成数据，用于机器人训练，但目前难以解决sim-to-real gap。简单来说，就是用虚拟仿真数据训练机器人效果很差，如果是简单的抓放搬运场景，虚拟数据相对可行，但如果涉及到柔性场景，比如说衣服被子等柔性物体，就很难运用。因为涉及到柔性物体形变的仿真，在物理层面本身就很难建模。

③真人数据映射： UMI和DexCap（斯坦福机器人团队）等正在探索真人数据映射（即采集真实人的数据，通过某种映射关系转化为机器人数据），但目前还比较早期。

3）遥操采集的数据本身存在毒性： ①人在运动过程中会有额外的运动轨迹：例如简单的搬箱子，人在遥操录制过程中，可能会因为外界干扰停顿几秒，但这个停顿对于机器人来说就存在毒性，因为其无法理解人为什么要停顿。 ②人的运动轨迹和机器人不一致：目前市面上大量机器人都是以旋转关节为主，而人的上下肢是直线关节，因此同样是搬箱子的动作，人和机器人的运动轨迹就是不一致的，这时候用真人的数据去训练机器人本身就存在毒性。

4）机器人本体方案未收敛导致数据难以复用：例如用特斯拉本体采集的数据很难给智元的机器人来训练，因为本体方案不同。

问题四：数据端存在这么多问题，业界如何解决？

真实的情况是，业界目前还无法解决上述数据端的问题。但目前各家都选择在自己的方案上努力收集数据，先在单一场景下实现一定程度的泛化，从而让更多人形机器人投入实际运用。我们认为可能是3-5年后，当市场上有足够多的人形机器人数据，并且硬件方案逐步收敛，具身智能基础模型呈现出一定的智能涌现，才有可能实现真正的端到端具身智能大模型。

问题五：能否采用Deepseek的范式来加速具身智能大模型的发展？

Deepseek是通过pre-train+post-train（强化学习）的模式，并且导入高质量数据，来降低大模型的算力和数据量需求。但目前来看，这种范式对具身智能大模型来说，路径是正确的，但基本要素还不具备。一方面，具身智能大模型并没有一个强大的基础模型；另一方面，也不存在一个完善的强化学习流程。学界一直在推行所谓的模仿学习+后训练强化学习的方案（类似于deepseek的路线），就是通过模仿学习达成0-1，然后通过强化学习达成1-10，但目前来看必要条件还未达成。

问题六：Figure Helix大模型详解和局限点解析：

机器人聚焦

正文

请到「今天看啥」查看全文

请到「今天看啥」查看全文