万字实录：VLA 范式，具身智能的曙光与迷雾丨GAIR Live

AI科技评论 · 公众号 · · 2025-05-22 17:00

正文

请到「今天看啥」查看全文

高阳： 那我先抛砖引玉一下。首先对于第一个问题，我们人类让机器人做一件事情要传达给机器人，传达的方式其实大多数是语言，L 在这里就起到一个指定任务的作用；V 和 L 之间的对齐也很重要，因为我们在指定任务后，机器人需要能理解当前的场景。语言是“拿一个水杯”，那这个水杯对应的图片到底在哪个位置？以及很多时候人类的语言描述有些上下文信息是关于图像的，那么把这两个模态结合起来，就可以让这个模型更好地去理解人类的意图，这些能力其实都依赖于 VLM 的预训练。

仉尚航： 对的，语言模态本身也能带来很多对机器人有用的额外信息，包括交互指令的接收等，然后可能也可以通过语言和视觉的对齐来增强视觉模态上的泛化性。那关于第二个问题，如何补充缺失的局部信息？不知道赵老师有没有什么想法？因为赵老师做自动驾驶，也有很多非常需要精准感知的任务。

赵行： 我简单分享下我的经历。GPT-4V 发布当晚，我就和同学们开始计划该怎么做。作为做应用的 researcher，从解决问题反推方法，VLA 和 VLM 的价值核心在于填补了具身智能领域此前模型普遍缺乏的常识能力，common sense，比如道路交通规则、人机社交规则等，这些被视觉语言模型包含在内的常识能帮助解决数据覆盖不到的长尾场景问题。

从实现路径看，既然 VLM 具备这种潜力，即便其 3D 感知能力有限，也可先与现有成熟的、达到 80-90 分表现的 3D 视觉感知模型结合，通过架构设计取长补短。未来只有 VLM 而没有其他模型，这也是个比较高概率的结果。长期来看，当前 VLM 预训练数据缺乏物理世界具身智能数据，未来若能将更多3D几何、时间等物理常识数据融入训练，这很可能会发展为一个主流技术的探索方向。

仉尚航： 谢谢赵老师的分享。首先我们可以把在 3D 感知上面效果好的模型和 VLM、VLA 结合，其次还可以在数据上面多引入物理规律，对落地和应用也很有启发。不知道耀东老师这边还有要补充的吗？

杨耀东： 前面两位老师已清晰描述了现状。如今大模型已在语言模型上取得突破，以往是将计算机视觉领域的好模型往语言模型上迁移，现在则是把自然语言处理上好的架构应用到计算机视觉架构中。一方面，Transformer的成功推动了这一转变；另一方面，人工智能在语言模态上实现了大模型、大数据、大算力的三位一体，产生了Scaling Law。

从哲学角度看，维特根斯坦认为语言认知是世界的边界，语言能表达所有事物，且语言处于离散空间，在建模上会更容易。然而，如何从语言模态突破到视觉和动作模态仍是挑战。目前工程上通过拼接，比如将高质量视觉模型、底层动作模型与语言模型结合，能解决部分问题。

但从通用智能体和 AGI 的角度出发，未来需要技术变革，将各模态融合，还是期望有大一统的表征，把所有变量纳入其中，但这个维度太高了。若相信所有模态能投影到低流行空间（柏拉图假设），那将有助于 VLA 和具身智能的大一统，以及实现更强的智能突破。目前 VLA 刚起步，语言和 VLM 有一定突破，拼接思路已现，未来技术革新可能会解决如 3D 信息感知不准确等问题，虽然不知所需时间，但应该不会太久。

VLA 的今生

仉尚航： 我们刚才讨论了 VLA 的前世，现在来聊聊它的今生，即 VLA 目前有几种技术路线，以及看看老师们有没有关于最新进展的一些分享，比如像海外 Physical Intelligence 团队发布 π 0.5 模型、Figure AI 的 Helix，高阳老师最近发布的 Spirit v1，还有星海图和 PI 紧密的合作，包括我们团队最近也和灵初智能在合作。大家作为资深专家，谈一谈各位对 VLA 技术路线及最新进展的看法吧。

高阳： VLA 多年技术进展集中于架构与数据两方面。架构上，从谷歌无预训练的 RT-1 到 RT-2、Sergey Levine 做的 OpenVLA 到 π 0.5，发展依托于 VLM进步。随着开源 VLM 架构优化与训练方法革新，相关成果拓展至 VLA，同时 Flow Matching、Diffusion 等技术提升了机器人动作生成能力。

数据层面，从谷歌用 Everyday Robots 采的私有数据集，到 Open X-Embodiment 等开源数据，包括仉尚航老师也做了些很好的数据集工作，国内外机构积极探索，通过新采集、历史数据处理等方式丰富数据源。此外，π 0.5 并非暴力采大量数据而是转向互联网数据，我们千寻智能也尝试用视频预训练。数据质量决定模型上限，这是 VLA 发展最根本、持久的驱动力。

杨耀东： 我从模型架构角度再说说，按对 action 的表征方式，VLA 可分为两大类型：将 action 作为连续动作处理时，需采用 diffusion 类生成式模型（如 π 系列工作），因为自回归模型主要处理离散 token；若把 action 抽象成语言模型中的 token，则以 Helix 为代表。这两类模型都依赖 VLM，旨在将语言空间的常识映射到物理空间的 action，我们最近也在写一个 VLA 总结，探索 action 表征为离散或连续空间的更优方式。

进一步而言，行为动作空间无论是离散还是连续表征，都可类比为人的大小脑（虽此类比有待商榷），其中 VLM 如同大脑负责推理决策规划，action 的 token 化或 diffusion policy 则类似小脑执行精细化操作，这两种技术范式不断发展演变，衍生出众多变体，但始终围绕这两大主流框架。

在训练方法上，当前 VLA 主要采用监督学习，与两年前大模型领域类似，依靠百万级数据集输入指令以实现跟随人力指令效果。然而，如何提升 VLA 在测试时的推理能力，充分发挥语言模型的推理优势，仍是亟待解决的关键问题。

赵行： 我较关注的切入点是双系统。刚才提到我们做应用的人更关注到底解决什么问题，说到现在的具身智能都缺常识，而 VLM 解决常识，那就把 VLM 和现有的端到端模型合作以实现一个双系统。

VLM 是一个推理速度较慢的模型，部署后大概能实现 2-3 赫兹的推理速度，而端到端模型能实现 10-20 赫兹的推理速度，它俩进行某种合作实现双系统。我们最早在自动驾驶实现并且落地了，这是我们一个挺自豪的成果，接着我们主要关注机器人领域的 VLA 设计，简单分解为以下几类。

首先是最有代表性的 π 0，我称之为紧凑的一段式 VLA，即图像、语言指令作为输入，直接输出动作，和端到端模型差不多。Hi Robot 是双系统设计，由 VLM 拆解高层次指令为原子动作后交给 VLA 执行，模式和自驾的双系统差不多，VLM 是一个低频率运作的系统，VLA 是一个高速运作系统。

相似的双系统工作有 Figure AI 的 Helix 和英伟达的 GROOT N1，但和 PI 稍不同的是他们没有训练 VLM，那个 VLM 是从互联网上拿大家训练好的开源模型去提取 VLM 的中间特征，把中间特征作为一个额外输入给一个端到端的 DP（动态规划）模型，然后让 DP 模型最后输出动作，是一种 VLM 不训练、提取其特征传给 DP 的设计。π0.5 和 Dex VLA 则以视觉为输入，中间做个 COT（思维链）解释它为了完成动作所要做的推理和规划，最后再把动作输出来，算是一段式的、有中间输出的 VLA。

最近有一个比较有意思的方向是，谷歌提的 embodied reasoning（具身推理），即不那么着急地训练一个 VLA 模型，因其本身从感知到规划的能力不是特别强，不如先把具身的推理模型训练好，当给模型指令时，模型看到图片能指出应操作图片里的哪一个物体，如把它从 a 位置放到 b 位置，它的 3D 空间位置是 1.5 米还是 2 米，训好后再把里面的知识蒸馏给 VLA，连上后面的 action decoder，侧重在 VLM 模型本身的能力。

仉尚航： 确实是干货满满。你在自动驾驶领域也是很早就开始做双系统，关于刚才提到的这几种技术路线，会觉得哪一种更有可能实现或胜任开放世界的更落地或者是 Out Of Lab（脱离实验室）的任务呢？

赵行： 其实这个答案我也不知道，目前 VLA 框架设计仍处于百花齐放的状态，有紧凑式、中间输出、两段式、并联或串联等各种组合。但大趋势是，无论原本做 VLM（从大语言模型出发）还是做机器人（专注 planning model、action model）的团队，都在做全栈开发。

为提升 VLM 能力，现在会引入动作数据进行联合训练，目标是训练出具身推理模型，甚至是到动作级别的完整模型 VLA。无论是大语言模型公司，还是做具身智能的研究者 / 企业，都在朝这个方向发展。大语言模型阵营会向 VLA 延伸，融合视觉与动作能力；机器人阵营则从解决精细操作的原子任务入手 —— 过去一个 Benchmark 包含 10 个动作就能证明模型能力，现在需要覆盖 100、200 甚至 500 个 task。在堆积大量任务的过程中，大家发现简单拼凑任务不可行，需要一个高效的 VLM 编码器和解码器来做跨模块融合。两股力量正朝着终局的 VLA 共同努力。

仉尚航： 现在 VLA 确实是一个百花齐放的状态，就像人工智能在最早期的符号主义、连接主义也是百花齐放，但随着研究进程慢慢地收敛。目前像 Gemini Robotics、Nvidia GROOT N1、Hi Robot、Helix 等都在做双系统也发布了相应的 Demo，也许这种双系统是在近期可能会更容易让大家觉得更具有落地或泛化潜力的设计，但未来还不好说。

VLA 包含各种各样的 Action，对于机器人中现在研究最多的 Manipulation、过去的 Navigation（VLN）和人形机器人相关的 Locomotion 三大任务，各位能否请各位结合自身研究，分享一个您认为该领域最需突破的核心技术瓶颈呢？

高阳： 我认为推理是当前一大难点，执行复杂任务时往往需要推理，赵老师、杨老师等学者在 VLA 与推理结合方面也开展了诸多研究，但我觉得哪种路径最优仍无定论。

另一个核心挑战是数据。当前数据量级远不及训练 VLM 的数据，且多样性不足更为关键。我们采集的数据多来自简单环境，理论上若有无穷多样的数据，VLA 难题或可迎刃而解，但现实中存在“数据不足限制模型能力，模型能力有限又导致数据采集困难”的鸡生蛋问题。如何破解数据困境，是 VLA 研究的重中之重。

仉尚航： Reasoning（推理）能力和数据这两点的确是很大的挑战，要不请耀东老师也分享一下，你所遇到的核心技术瓶颈是什么呢？

杨耀东： 我觉得当前 VLA 训练仍处于割裂状态，大脑和小脑分开训练，很少端到端训的。这不像人类大脑与小脑的双向交互（小脑执行中的反馈会实时作用于大脑），现有双系统架构是训练产物而非生理结构。如何打通端到端训练是关键，若底层策略（如diffusion模型）与上层架构脱节，联调难度大，虽有清华 RDT、PI 等尝试探索端到端架构（PI虽是 frozen 的但具备端到端能力），所以打通大小脑是一个比较重要的问题。

另一个问题是，语言模型通过强化学习在测试时（test time）持续计算优化推理能力（输出行为反哺输入形成语义闭环），但 VLA 目前仅能让大模型生成中间信号（embedding/token/condition）驱动小模型输出动作，缺乏真正的“测试时计算闭环”——动作执行后无法回流至VLM形成迭代优化。

要突破这一点，需借鉴语言模型经验，用端到端架构结合强化学习，赋予 VLA 在动作空间的闭环推理能力。这一技术方向已被关注，但工程化落地（结合高老师提到的数据难题）仍是 VLA 亟待解决的核心课题，否则它可能只是模块拼接产物，难以释放具身智能的真正潜力。

第二个问题是，打通训练后如何通过我们在语言模型上已经看到的、利用强化学习的方法显著提升其推理能力。现在的 VLA，它所有推理能力都来自于 VLM，但这远远不够，因为我们知道在语言模型推理能力强的大部分原因是因为它能做 test time compute，在测试时间不停地思考，准确度越来越高，所以在语义空间能形成闭环，即输出的行为能在变成输入到 VLM 去。

但对于 VLA 来讲，现在大模型生成一个中间产物，如某种 embedding、token 或 condition，然后到了小模型小脑输出了一个行为就没了，这没办法 test time compute。真正的 test time compute 是一个视觉或指令输入，输出一个 action，这个 action 还得回到 VLA 里去，这样才能形成闭环，加之以测试时间的算力提升，彻底提升整个行为动作空间的泛化性、准确性和鲁棒性等。

这背后需要攻克的技术难点是怎么利用端到端架构赋以强化学习训练的知识和 knowhow，复刻出我们在语言模型上已经取得的成功。这一技术方向已被关注，但工程化落地及高老师提到的数据难题，仍是 VLA 亟待解决的核心课题，否则它可能只是模块拼接产物，难以彻底释放智能到具身智能中去。

仉尚航： 其实我下一个问题就是关于怎么结合强化学习来提升闭环反馈能力，耀东老师正好先帮我回答了。我们继续请赵老师谈一下你觉得 VLA 的核心瓶颈是什么？

赵行： 我刚刚提到的各类 VLA 范式，并联、串联、一段式、中间输出等大多是简单的线性无环图，而我们理想中的 VLA 应让视觉、语言、动作三模态形成闭环，这个耀东老师解释得已经非常清楚了。

另一个可能的挑战是，实际应用部署时，我们不希望整个系统以单一频率运行，这不仅涉及经济成本，也是系统优化层面的难题。从哺乳动物的角度来看，动作控制需要高频运行，实现快速感知反馈，而高层次思维闭环的频率则应更低。从这个第一性原理去思考，应该设计出类似人类的高低频自适应闭环系统，但至今仍是未被攻克的课题。

仉尚航： 你说的高频率、低频率，Helix 这个工作是不是这种结合？

赵行：