正文
问题表述
。如图显示机器人操作任务的设置。机器人在时间步 t 的观察,包括基础和手部视觉输入 V_t^b 和 V_t^h、本体感受状态 s_t 以及外部力-扭矩读数 f_t,它们统称为 O_t = {V_t^b, V_t^h, s_t, f_t}。给定一条语言指令 L,目标是学习一个端到端策略 π(A_t|O_t,L),该策略输出低级、可执行动作块 At = {a_t, a_t+1, ..., a_t+H−1}[10],最大化完成富含接触任务的可能性,其中 s_t 是与夹持器宽度连接的 TCP 姿态向量。TCP 位置用笛卡尔坐标 (x, y, z) 表示,方向用欧拉角 (α, β, γ) 表示。 f_t 是施加于 TCP 估计的外部扳手,以世界坐标系表示,由力和力矩组成:f_t = {f_tx,f_ty,f_tz,m_tx,m_ty,m_tz}。
MoE 架构
。选择混合专家 (MoE)[44, 42] 作为融合层。其核心思想是将不同的模态分布到一组规模较大、专门化的“专家”子网络中,对于任何给定的输入 tokens,只有一小部分子网络被激活。MoE 层通常包含一组 N 个专家网络(记为 {E_i})和一个门控网络(也称为路由器),记为 G。该网络接收输入 tokens x,并动态确定应从 N 个专家中挑选出哪一个来处理它。在流行的稀疏 MoE 实现中,对于输入 tokens x,门控网络 G(x) 会生成分数或对数函数,用于从 N 个专家池中选出一小部分专家(通常为 k = 1 或 k = 2,其中 k ≪ N)。然后,输入token x 仅被路由到这 k 个活跃专家。这些活跃专家的输出 E_i(x) 随后被聚合,通常通过加权和的方式进行,其中权重 g_i(x) 也来自门控网络。MoE 层的最终输出 y(x) 可以表示为:y(x) = sum_i∈TopK(G(x)) g_i(x)E_i(x),其中 TopK(G(x)) 表示门控网络针对输入 x 选取的前 k 名专家索引集。
ForceVLA 概述
ForceVLA 是一种端到端多模态机器人策略,专为接触式操作而设计。其流程如图所示。它基于 π0 框架 [10],集成了视觉、语言、本体感受和 6 轴力反馈,通过条件流匹配模型 [48, 49] 生成动作。来自多个 RGB 摄像头的视觉输入和任务指令由基于 SigLIP [50] 的视觉语言模型(基于 PaliGemma [11])编码为上下文嵌入。这些嵌入与本体感受和力反馈相结合,形成一个迭代去噪过程,用于预测动作轨迹。