专栏名称: 大语言模型和具身智体及自动驾驶
讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
51好读  ›  专栏  ›  大语言模型和具身智体及自动驾驶

SwitchVLA:视觉-语言-动作模型中执行-觉察的任务切换

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2025-06-10 00:02

正文

请到「今天看啥」查看全文


标准 VLA 执行。给定机器人的专家轨迹 τ = {(l|o_t, q_t)},其中 l 是该轨迹的任务语言指令,o_t 和 q_t 分别表示时间 t 时的视觉观察和机器人状态(例如关节角度)。目标是学习一个策略,以行为一致的方式映射 (l|o_t, q_t) → a_t+1,其中 a_t+1 表示机器人在时间 t + 1 时的动作。

任务切换。在实际部署中,机器人可能在执行过程中的任意时间接收新的任务指令 l′。这种动态输入会引入分布外的观察-指令对 (l′|o_t, q_t),对泛化带来重大挑战。确定两个核心子问题:(i) 指令接地——将策略与最新指令 l′ 对齐;(ii) 执行-觉察的切换——使用执行反馈(例如物理接触)来决定是前进、回滚还是切换到新的行为模式。

为了应对任务切换中的这些挑战,引入两个辅助监督信号——接触状态和行为模式——作为任务阶段和执行反馈的关键潜在指标。

指令-觉察控制的监督信号

接触状态。接触状态指示机器人与物体之间的物理交互。其定义为一个二元变量 c_t ∈ {0, 1},其中 0 表示无接触,1 表示接触。它可以通过以下方式推断:触觉感知、夹持器打开/关闭信号、启发式运动或力阈值,或使用预训练模型进行视觉语言解析。这种二元状态会随着时间的推移而演变,并指导任务阶段的进展,从而指导系统的下一步行动策略。

行为模式。将时间步 t 的行为模式定义为 b_t ∈ {0:forward,1:rollback,2:advance},每个值对应一个不同的行为策略:前进(b_t = 0)继续标准执行;回滚(b_t = 1)在接触过程中检测到意图不匹配时撤消之前的操作;推进(b_t = 2)在指令更新且不存在物理交互时转换到新的子任务。

接触状态和行为模式的标签,可以通过相位对齐的演示进行弱监督,也可以通过从执行反馈中自动解析的行为启发式方法得出。接触状态 c_t 和行为模式 b_t 共同提供关键的监督信号,以应对任务切换挑战。接触状态提供实时执行反馈以检测交互阶段,而行为模式则编码高级任务意图——是前进、回滚还是推进。这些信号调节策略,使其自适应地与更新的指令保持一致,并在动态执行下做出连贯的响应。

架构概述

SwitchVLA 构建一个统一的架构,用于实现鲁棒且指令一致的任务执行,如图所示。该架构包含两个核心组件:(i) 视觉-语言-接触 (VLC) 嵌入模块,将视觉、语言和接触线索编码为统一的表示形式。(ii) 条件执行专家,根据当前多模态嵌入解码行为-觉察动作。其基于 Florence 2 [32] 构建 SwitchVLA。







请到「今天看啥」查看全文