专栏名称: 大语言模型和具身智体及自动驾驶
讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
相关文章推荐
山西省应急管理厅  ·  历史上六月发生的危险化学品事故 ·  3 小时前  
鱼羊史记  ·  DeepSeek:普通人一生值得体验的十件事 ·  20 小时前  
江西晨报  ·  太原一地修路挖出“古城墙”!官方通报 ·  21 小时前  
江西晨报  ·  太原一地修路挖出“古城墙”!官方通报 ·  21 小时前  
全知识官方  ·  2025年高考语文试题评析 ·  1 周前  
51好读  ›  专栏  ›  大语言模型和具身智体及自动驾驶

ForceVLA:利用力-觉察 MoE 增强 VLA 模型以实现丰富接触的操作

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2025-06-09 00:15

正文

请到「今天看啥」查看全文




问题表述 。如图显示机器人操作任务的设置。机器人在时间步 t 的观察,包括基础和手部视觉输入 V_t^b 和 V_t^h、本体感受状态 s_t 以及外部力-扭矩读数 f_t,它们统称为 O_t = {V_t^b, V_t^h, s_t, f_t}。给定一条语言指令 L,目标是学习一个端到端策略 π(A_t|O_t,L),该策略输出低级、可执行动作块 At = {a_t, a_t+1, ..., a_t+H−1}[10],最大化完成富含接触任务的可能性,其中 s_t 是与夹持器宽度连接的 TCP 姿态向量。TCP 位置用笛卡尔坐标 (x, y, z) 表示,方向用欧拉角 (α, β, γ) 表示。 f_t 是施加于 TCP 估计的外部扳手,以世界坐标系表示,由力和力矩组成:f_t = {f_tx,f_ty,f_tz,m_tx,m_ty,m_tz}。


MoE 架构 。选择混合专家 (MoE)[44, 42] 作为融合层。其核心思想是将不同的模态分布到一组规模较大、专门化的“专家”子网络中,对于任何给定的输入 tokens,只有一小部分子网络被激活。MoE 层通常包含一组 N 个专家网络(记为 {E_i})和一个门控网络(也称为路由器),记为 G。该网络接收输入 tokens x,并动态确定应从 N 个专家中挑选出哪一个来处理它。在流行的稀疏 MoE 实现中,对于输入 tokens x,门控网络 G(x) 会生成分数或对数函数,用于从 N 个专家池中选出一小部分专家(通常为 k = 1 或 k = 2,其中 k ≪ N)。然后,输入token x 仅被路由到这 k 个活跃专家。这些活跃专家的输出 E_i(x) 随后被聚合,通常通过加权和的方式进行,其中权重 g_i(x) 也来自门控网络。MoE 层的最终输出 y(x) 可以表示为:y(x) = sum_i∈TopK(G(x)) g_i(x)E_i(x),其中 TopK(G(x)) 表示门控网络针对输入 x 选取的前 k 名专家索引集。


ForceVLA 概述

ForceVLA 是一种端到端多模态机器人策略,专为接触式操作而设计。其流程如图所示。它基于 π0 框架 [10],集成了视觉、语言、本体感受和 6 轴力反馈,通过条件流匹配模型 [48, 49] 生成动作。来自多个 RGB 摄像头的视觉输入和任务指令由基于 SigLIP [50] 的视觉语言模型(基于 PaliGemma [11])编码为上下文嵌入。这些嵌入与本体感受和力反馈相结合,形成一个迭代去噪过程,用于预测动作轨迹。







请到「今天看啥」查看全文


推荐文章
山西省应急管理厅  ·  历史上六月发生的危险化学品事故
3 小时前
鱼羊史记  ·  DeepSeek:普通人一生值得体验的十件事
20 小时前
全知识官方  ·  2025年高考语文试题评析
1 周前
槽边往事  ·  我的智力优越感
8 年前
亿邦动力  ·  天猫又和努比亚、京东开撕了
8 年前