SwitchVLA：视觉-语言-动作模型中执行-觉察的任务切换

大语言模型和具身智体及自动驾驶 · 公众号 · · 2025-06-10 00:02

正文

请到「今天看啥」查看全文

标准 VLA 执行。给定机器人的专家轨迹 τ = {(l|o_t, q_t)}，其中 l 是该轨迹的任务语言指令，o_t 和 q_t 分别表示时间 t 时的视觉观察和机器人状态（例如关节角度）。目标是学习一个策略，以行为一致的方式映射 (l|o_t, q_t) → a_t+1，其中 a_t+1 表示机器人在时间 t + 1 时的动作。

任务切换。在实际部署中，机器人可能在执行过程中的任意时间接收新的任务指令 l′。这种动态输入会引入分布外的观察-指令对 (l′|o_t, q_t)，对泛化带来重大挑战。确定两个核心子问题：(i) 指令接地——将策略与最新指令 l′ 对齐；(ii) 执行-觉察的切换——使用执行反馈（例如物理接触）来决定是前进、回滚还是切换到新的行为模式。

为了应对任务切换中的这些挑战，引入两个辅助监督信号——接触状态和行为模式——作为任务阶段和执行反馈的关键潜在指标。

指令-觉察控制的监督信号

接触状态。接触状态指示机器人与物体之间的物理交互。其定义为一个二元变量 c_t ∈ {0, 1}，其中 0 表示无接触，1 表示接触。它可以通过以下方式推断：触觉感知、夹持器打开/关闭信号、启发式运动或力阈值，或使用预训练模型进行视觉语言解析。这种二元状态会随着时间的推移而演变，并指导任务阶段的进展，从而指导系统的下一步行动策略。

行为模式。将时间步 t 的行为模式定义为 b_t ∈ {0：forward，1：rollback，2：advance}，每个值对应一个不同的行为策略：前进（b_t = 0）继续标准执行；回滚（b_t = 1）在接触过程中检测到意图不匹配时撤消之前的操作；推进（b_t = 2）在指令更新且不存在物理交互时转换到新的子任务。

接触状态和行为模式的标签，可以通过相位对齐的演示进行弱监督，也可以通过从执行反馈中自动解析的行为启发式方法得出。接触状态 c_t 和行为模式 b_t 共同提供关键的监督信号，以应对任务切换挑战。接触状态提供实时执行反馈以检测交互阶段，而行为模式则编码高级任务意图——是前进、回滚还是推进。这些信号调节策略，使其自适应地与更新的指令保持一致，并在动态执行下做出连贯的响应。

架构概述

SwitchVLA 构建一个统一的架构，用于实现鲁棒且指令一致的任务执行，如图所示。该架构包含两个核心组件：(i) 视觉-语言-接触 (VLC) 嵌入模块，将视觉、语言和接触线索编码为统一的表示形式。(ii) 条件执行专家，根据当前多模态嵌入解码行为-觉察动作。其基于 Florence 2 [32] 构建 SwitchVLA。