学习以任务为中心的潜动作，随地采取行动

大语言模型和具身智体及自动驾驶 · 公众号 · · 2025-05-20 00:32

正文

请到「今天看啥」查看全文

如图所示：

虽然最近的研究 [87, 15] 已经探索从网络规模视频中学习潜动作的可行性，但它们存在一个关键的局限性：它们基于重建的简单目标函数通常会捕捉与任务无关的动态，例如非自智体的移动或不可预测的摄像机移动。这些嘈杂的表征会引入与任务无关的干扰，从而阻碍策略预训练。为了解决这个问题，利用预训练的 DINOv2 特征 [62] 从像素中提取块级表征，提供空间和以目标为中心的先验知识，从而更好地捕获与任务相关的信息。通过使用现成的语言指令作为条件，进一步将动作分解为两个互补的动作表征，其中一个明确地表示以任务为中心的动作。

本文开发三个步骤来实现 UniVLA：1）（第三部分 A）利用基于语言的目标规范，以无监督的方式从大量视频数据集中提取逆动态，从而生成一组以任务为中心的离散潜动作，这些动作可泛化至不同的具体实现和领域；2）（第三部分 B）在此基础上，训练一个基于自回归 Transformer 的视觉-语言-动作模型，该模型以视觉观察和任务指令作为输入，在统一的潜空间中预测潜动作token；3）（第三部分 C）为了高效地适应各种机器人控制系统，引入专门的策略头，将潜动作解码为可执行的控制信号。

以任务为中心的潜动作学习

第一步通过生成伪动作标签（即潜动作 tokens）奠定了该框架的基础，这些标签是后续阶段训练泛化策略的基础。

潜动作量化。如图展示潜动作模型的两阶段训练流程和整体架构。从一对连续的视频帧开始，记为 {o_t,o_t+k}，两个帧之间间隔为 k。为了确保不同数据集的时间间隔统一为大约 1 秒，帧间隔根据每个数据集特定的记录频率进行标定。为了从视频中得出潜动作，潜动作模型围绕基于逆动力学模型 (IDM) 的编码器 I(a_t|o_t,o_t+k) 和基于前向动力学模型 (FDM) 的解码器 F(o_t+k|o_t,a_t) 构建。编码器根据连续的观察推断潜动作，解码器经过训练，可以根据指定的潜动作预测未来的观察结果。遵循 Villegas [77] 的研究，将编码器实现为具有随意时间掩码的时空transformer [84]。一组可学习的动作 tokens a_q（具有预定义的维度 d）按顺序连接到视频特征以提取动态特征。

为了进一步压缩信息并使其与基于自回归 transformer 策略的学习目标 [66] 保持一致，对动作 tokens 应用潜量化。量化的动作 tokens a_z 使用 VQ-VAE [76] 目标进行优化，其码本词汇量为 |C|。解码器实现为空间 transformer，经过优化，仅使用量化的动作 tokens 即可预测未来帧。不将历史帧输入解码器，以防止模型过度依赖上下文信息或仅仅记忆数据集。

虽然最近的研究 [11, 27, 87] 使用原始像素进行预测，但像素空间预测会迫使模型关注嘈杂的、与任务无关的细节（例如，纹理、光照）[30]。这一问题在网络规模和众包视频数据集 [29] 中尤为突出，因为不受控制的捕获条件会引入进一步的变化。受联合嵌入预测架构 (JEPA) [4, 5, 96] 的启发，本文提出使用 DINOv2 [62] 空间块特征作为语义丰富的表征。它们以目标为中心和空间感知的特性使它们不仅适合用作输入，也适合用作潜动作模型的预测目标。自监督目标是最小化嵌入重构误差：||Oˆ_t+k − O_t+k||^2。用 {O_t, O_t+k} 来表示成对视频帧 {o_t, o_t+k} 的 DINOv2 特征。因此，紧凑的潜动作必须对观测值之间的变换进行编码，以最小化预测误差。

潜动作解耦。如前所述，在网络规模视频中，机器人的动作通常会与不相关的环境变化纠缠在一起。为了减轻与任务无关的动态特征带来的不利影响，将现成的语言指令融入到潜动作模型的第一训练阶段（如上图左）。语言输入使用预训练的 T5 文本编码器 [67] 进行编码，并作为编码器和解码器上下文中的条件信号。