专栏名称: 大语言模型和具身智体及自动驾驶
讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
相关文章推荐
成都发布  ·  首次!成都都市圈投资指南即将发布 ·  18 小时前  
成都发布  ·  凉快一下🧊成都地铁纳凉区已开放 ·  昨天  
成都发布  ·  免票、半价,毕业生专属福利→ ·  2 天前  
成都发布  ·  刚刚,成都发布高温橙色预警信号! ·  2 天前  
51好读  ›  专栏  ›  大语言模型和具身智体及自动驾驶

慢-中-快:快速操作与慢速推理统一的双-系统基础模型

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2025-06-10 00:02

正文

请到「今天看啥」查看全文




FiS-VLA 框架如图所示:FiS-VLA 的整体架构。该方法的核心思想是保留完整的 VLM 用于系统 2 的推理,同时将其最终的Transformer模块重新用于系统 1 的执行模块。这种设计并非将系统 1 构建为一个独立注入的模块,而是将其构建为一个组件,它继承 VLM 的预训练知识,并保持对系统 2 中间推理输出的一致理解,同时满足实时控制的低延迟要求。


问题表述

遵循 [23, 22],VLA 模型通常通过在异构演示数据集 D 上进行模仿学习来学习机器人控制策略。训练目标是最大化生成时间扩展动作序列 a_t:t+H 的可能性,该序列以多模态观测 o_t−1 和语言指令 l 为条件。本研究构建全面的观测数据,包括机器人状态、多视角图像和 3D 点云。

动作 a 可以代表不同的控制空间和控制模式。本研究在仿真中对单臂 Franka Panda 机器人采用 7 自由度末端执行器位姿控制,其中包括 3 个相对位置偏移自由度 ([∆x, ∆y, ∆z])、3 个旋转自由度(以欧拉角表示)和 1 个夹持器状态(打开/闭合)自由度。在实际实验中,为了验证模型在不同机器人实施例和控制模式下的鲁棒性,在 AgileX 机器人上采用 14 自由度控制,在 AlphaBot 双臂机器人上采用 16 自由度控制,分别在末端执行器位姿控制和关节位置控制下进行。

FiS-VLA 架构

FiS-VLA 架构如上图所示。与之前的 VLA 方法 [7, 22] 类似,FiS-VLA 继承基础架构,并使用 Prismatic VLM [16] 初始化预训练参数。该模型主要由一个视觉编码器和一个 LLM 组成,并引入一个额外的轻量级 3D token 化器,以高效处理点云输入。







请到「今天看啥」查看全文