正文
VLA
尽管 VLM 具有诸多优势,但它们的内在设计并非旨在直接生成适用于机器人技术中特定体现配置的策略。这一局限性促使视觉-语言-动作 (VLA) 模型的出现,该模型通过利用多模态输入(结合视觉观察和语言指令)来弥补这一差距,从而在多样化的多任务场景中生成自适应且广义的机器人动作。根据动作建模方法,VLA 模型大致可分为两类:连续动作模型(Octo Model Team,2024),通常采用
扩散过程
在连续动作空间中生成平滑轨迹;以及离散 token 模型(Brohan,2023b;c;Kim,2024;Sun,2024),其中机器人动作表示为离散 token 序列。在基于离散 token 的 VLA 模仿学习公式中,机器人在给定时间 t 的状态由多模态观察表征,包括视觉图像 I_t、文本指令 L_t 和先前状态上下文 S_t。目标是预测一系列离散标记 A_t,表示机器人可执行的动作。正式地说,该模仿学习策略模型 π_θ(A_t |I_t,L_t,S_t) 经过训练,可以复制专家提供的动作序列,使机器人能够将学习的行为泛化到由视觉语言提示引导的新场景中。
动作 token 化
在机器人系统中,动作通常表示为跨多个自由度 (DoF) 的连续控制信号,例如 (x, y, z) 方向的平移以及滚转、俯仰和偏航方向的旋转。为了兼容基于 Transformer 的语言主干,通常使用分箱方法将这些连续动作离散化 (Brohan et al., 2023c; b)。此过程使用基于分位数的策略将机器人动作的每个维度映射到 256 个离散箱中的一个,从而确保对异常值的鲁棒性,同时保持足够的粒度。OpenVLA (Kim et al., 2024) 通过覆盖 LLaMA token 化器中 256 个最少使用的 tokens,将这些动作 tokens 合并到语言模型的词汇表中,从而实现对动作序列的下一个 token 预测。为了进一步提高预训练效率,采用了一种快速 token 化方法 (Pertsch et al., 2025),该方法在每个时间步对动作维度应用离散余弦变换 (DCT)。这种方法可以去除联合动作分量的相关性,并支持使用字节对编码 (BPE) 将它们压缩为更短、更高效的 token 序列。由此产生的表征减少词汇量并加快收敛速度,同时使动作数据的结构与语言模型友好的 token 统计数据保持一致。在推理过程中,NORA 占用约 8.3GB 的 GPU 内存。