LoHoVLA：面向长范围具身任务的统一视觉-语言-动作模型

大语言模型和具身智体及自动驾驶 · 公众号 · · 2025-06-08 01:55

正文

请到「今天看啥」查看全文

原始 VLA 模型。原始 VLA 模型（如图左上角）仅限于动作生成，无法生成语言输出。因此，实际上，它隐式地执行子任务规划，仅根据高级目标 g 和当前观测 o_t 得出结果动作：π_θ(o_t, g) → a_t。

分层架构。VLA 的隐式子任务缺乏可解释性和可靠性。为了解决这个问题，分层架构（如图左下）建议使用外部高级规划器，根据当前观察结果和高级目标显式推断下一个原子子任务。然后，低级控制器生成操作来执行该子任务： π_θ^planner(o_t, g_t) → gˆ_t, π_θ^controller(o_t, gˆ_t) → a_t.

LoHoVLA。本文提倡一种统一的范式，将高级任务规划和低级运动控制集成到一个模型中（如图右），而不是使用可能存在协调不优化和建模冗余的不相交模块。形式上，有：

π_θ(a_t, gˆ_t |o_t, g) = π_θ(a_t |o_t, g, gˆ_t)·π_θ(gˆ_t |o_t, g)。

正如公式所暗示的，LoHoVLA 首先推断下一个原子子任务，然后将其用作上下文指导来预测机器人的动作。高级任务规划对应于建模 π_θ(gˆ_t |o_t, g)，而低级运动控制对应于建模 π_θ(a_t |o_t, g, gˆ_t)，这两个分布都在一个统一的模型中表示。

面向长时域具身任务的合成数据集：LoHoSet

LoHoVLA 的训练依赖于一组演示 (g, γ_t)，其中 γ_t = (o_t, gˆ_t, a_t)。主要挑战在于，现实世界中长时域任务的子任务标注很少能够在无人干预的情况下以可扩展的方式获得。为了解决这个问题，参考先前的研究 [38, 50, 32]，选择一种基于模拟器的方法。具体来说，基于 Ravens 机器人模拟器 [49] 构建 LoHoSet 数据集。模拟环境包括一个带有吸盘夹持器的 UR5e 机械臂和放置在桌子上的多个物体。只有当预测动作在语义上正确且成功执行时，环境才会提供奖励信号。为了模拟现实世界的不确定性，模拟器添加了观测噪声，并引入一个落下概率 p，使末端执行器每秒落下拾取的方块。视觉观察 o = (I_color, I_depth) 包含场景的 RGB 和深度自上而下的正交重建。目标指令 g 主要关注将目标重新排列成所需的配置（例如，“在绿色区域上以交替颜色堆叠积木”）。