正文
如图所示:
虽然最近的研究 [87, 15] 已经探索从网络规模视频中学习潜动作的可行性,但它们存在一个关键的局限性:它们基于重建的简单目标函数通常会捕捉与任务无关的动态,例如非自智体的移动或不可预测的摄像机移动。这些嘈杂的表征会引入与任务无关的干扰,从而阻碍策略预训练。为了解决这个问题,利用预训练的 DINOv2 特征 [62] 从像素中提取块级表征,提供空间和以目标为中心的先验知识,从而更好地捕获与任务相关的信息。通过使用现成的语言指令作为条件,进一步将动作分解为两个互补的动作表征,其中一个明确地表示以任务为中心的动作。
本文开发三个步骤来实现 UniVLA:1)(第三部分 A)利用基于语言的目标规范,以无监督的方式从大量视频数据集中提取逆动态,从而生成一组以任务为中心的离散潜动作,这些动作可泛化至不同的具体实现和领域;2)(第三部分 B)在此基础上,训练一个基于自回归 Transformer 的视觉-语言-动作模型,该模型以视觉观察和任务指令作为输入,在统一的潜空间中预测潜动作token;3)(第三部分 C)为了高效地适应各种机器人控制系统,引入专门的策略头,将潜动作解码为可执行的控制信号。
以任务为中心的潜动作学习
第一步通过生成伪动作标签(即潜动作 tokens)奠定了该框架的基础,这些标签是后续阶段训练泛化策略的基础。
潜动作量化
。如图展示潜动作模型的两阶段训练流程和整体架构。从一对连续的视频帧开始,记为 {o_t,o_t+k},两个帧之间间隔为 k。为了确保不同数据集的时间间隔统一为大约 1 秒,帧间隔根据每个数据集特定的记录频率进行标定。为了从视频中得出潜动作,潜动作模型围绕基于逆动力学模型 (IDM) 的编码器 I(a_t|o_t,o_t+k) 和基于前向动力学模型 (FDM) 的解码器 F(o_t+k|o_t,a_t) 构建。编码器根据连续的观察推断潜动作,解码器经过训练,可以根据指定的潜动作预测未来的观察结果。遵循 Villegas [77] 的研究,将编码器实现为具有随意时间掩码的时空transformer [84]。一组可学习的动作 tokens a_q(具有预定义的维度 d)按顺序连接到视频特征以提取动态特征。
为了进一步压缩信息并使其与基于自回归 transformer 策略的学习目标 [66] 保持一致,对动作 tokens 应用潜量化。量化的动作 tokens a_z 使用 VQ-VAE [76] 目标进行优化,其码本词汇量为 |C|。解码器实现为空间 transformer,经过优化,仅使用量化的动作 tokens 即可预测未来帧。不将历史帧输入解码器,以防止模型过度依赖上下文信息或仅仅记忆数据集。
虽然最近的研究 [11, 27, 87] 使用原始像素进行预测,但像素空间预测会迫使模型关注嘈杂的、与任务无关的细节(例如,纹理、光照)[30]。这一问题在网络规模和众包视频数据集 [29] 中尤为突出,因为不受控制的捕获条件会引入进一步的变化。受联合嵌入预测架构 (JEPA) [4, 5, 96] 的启发,本文提出使用 DINOv2 [62] 空间块特征作为语义丰富的表征。它们以目标为中心和空间感知的特性使它们不仅适合用作输入,也适合用作潜动作模型的预测目标。自监督目标是最小化嵌入重构误差:||Oˆ_t+k − O_t+k||^2。用 {O_t, O_t+k} 来表示成对视频帧 {o_t, o_t+k} 的 DINOv2 特征。因此,紧凑的潜动作必须对观测值之间的变换进行编码,以最小化预测误差。
潜动作解耦
。如前所述,在网络规模视频中,机器人的动作通常会与不相关的环境变化纠缠在一起。为了减轻与任务无关的动态特征带来的不利影响,将现成的语言指令融入到潜动作模型的第一训练阶段(如上图左)。语言输入使用预训练的 T5 文本编码器 [67] 进行编码,并作为编码器和解码器上下文中的条件信号。