ForceVLA：利用力-觉察 MoE 增强 VLA 模型以实现丰富接触的操作

大语言模型和具身智体及自动驾驶 · 公众号 · · 2025-06-09 00:15

正文

请到「今天看啥」查看全文

问题表述。如图显示机器人操作任务的设置。机器人在时间步 t 的观察，包括基础和手部视觉输入 V_t^b 和 V_t^h、本体感受状态 s_t 以及外部力-扭矩读数 f_t，它们统称为 O_t = {V_t^b, V_t^h, s_t, f_t}。给定一条语言指令 L，目标是学习一个端到端策略 π(A_t|O_t,L)，该策略输出低级、可执行动作块 At = {a_t, a_t+1, ..., a_t+H−1}[10]，最大化完成富含接触任务的可能性，其中 s_t 是与夹持器宽度连接的 TCP 姿态向量。TCP 位置用笛卡尔坐标 (x, y, z) 表示，方向用欧拉角 (α, β, γ) 表示。 f_t 是施加于 TCP 估计的外部扳手，以世界坐标系表示，由力和力矩组成：f_t = {f_tx,f_ty,f_tz,m_tx,m_ty,m_tz}。

MoE 架构。选择混合专家 (MoE)[44, 42] 作为融合层。其核心思想是将不同的模态分布到一组规模较大、专门化的“专家”子网络中，对于任何给定的输入 tokens，只有一小部分子网络被激活。MoE 层通常包含一组 N 个专家网络（记为 {E_i}）和一个门控网络（也称为路由器），记为 G。该网络接收输入 tokens x，并动态确定应从 N 个专家中挑选出哪一个来处理它。在流行的稀疏 MoE 实现中，对于输入 tokens x，门控网络 G(x) 会生成分数或对数函数，用于从 N 个专家池中选出一小部分专家（通常为 k = 1 或 k = 2，其中 k ≪ N）。然后，输入token x 仅被路由到这 k 个活跃专家。这些活跃专家的输出 E_i(x) 随后被聚合，通常通过加权和的方式进行，其中权重 g_i(x) 也来自门控网络。MoE 层的最终输出 y(x) 可以表示为：y(x) = sum_i∈TopK(G(x)) g_i(x)E_i(x)，其中 TopK(G(x)) 表示门控网络针对输入 x 选取的前 k 名专家索引集。

ForceVLA 概述

ForceVLA 是一种端到端多模态机器人策略，专为接触式操作而设计。其流程如图所示。它基于 π0 框架 [10]，集成了视觉、语言、本体感受和 6 轴力反馈，通过条件流匹配模型 [48, 49] 生成动作。来自多个 RGB 摄像头的视觉输入和任务指令由基于 SigLIP [50] 的视觉语言模型（基于 PaliGemma [11]）编码为上下文嵌入。这些嵌入与本体感受和力反馈相结合，形成一个迭代去噪过程，用于预测动作轨迹。