专栏名称: 大语言模型和具身智体及自动驾驶
讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
相关文章推荐
马靖昊说会计  ·  资产减值会计准则是为虚增资产、虚增利润准备的! ·  4 小时前  
会计雅苑  ·  *ST恒立:关于收到行政处罚事先告知书的公告 ·  6 小时前  
马靖昊说会计  ·  跳出财报 ·  昨天  
51好读  ›  专栏  ›  大语言模型和具身智体及自动驾驶

通过基于流视频预测的可泛化双手操作基础策略

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2025-06-05 00:05

正文

请到「今天看啥」查看全文


然而,直接在有限的双手数据上对 CogVideoX 进行微调通常会产生次优的预测。这个归因于该模型缺乏具身领域知识,从而阻碍对机器人和物体运动的精确预测。为了解决这个问题,CogRobot 引入光流作为中间变量,将流程分解为两个模块:文本-到-光流和光流-到-视频,这两个模块均基于 CogVideoX 构建。(i) 与直接预测视频相比,文本-到-光流模块预测的是光流而不是原始视频,专注于对机器人和目标的运动行为和动态交互进行建模,而无需详细说明视频细节。(ii) 然后,光流-到-视频模块从光流中重建详细的视频,通过光流将语言指令置于具体的高级语义中,而无需考虑低级动作。CogRobot 框架减轻语言指令中的歧义性,并显著降低微调的数据要求。因此,CogRobot 通过中间物理表示有效地将高级指令与低级动作连接起来。


采用两个七自由度 Realman 机械臂和一个外部摄像头构建一个双臂系统,如图(a)所示。双手操作任务T可以表述为一个目标条件的部分可观马尔可夫决策过程(POMDP),其参数为(S,O,A,P,L),其中S和O分别为状态空间和观测空间。

通过VR设备的遥操作收集专家数据。该设备捕捉人类手部和手腕的姿势,并通过重新瞄准和逆运动学将其转换为机器人关节角度指令,基本遵循OpenTelevision [18]的原理。收集的数据集包含episodic数据,包括观察序列(即视频)v = [o_1,...,o_T]、动作序列[a_1,...,a_T-1]和语言描述l。

在 CogRobot 中,将指令条件下的双手策略 π(a_t:t+N−1|o_t,l) 的训练分解为两个步骤:(i) 给定当前观察 o_t,预测实现指定目标 l 的未来观察轨迹 o_t+1:t+N = o_t+1,..., o_t+N;(ii) 从预测的观察序列 o_t+1:t+N 中推导出可执行的低级动作 a_t:t+N−1。本文 o_t+1:t+N 的预测被表述为视频生成问题。

最近的 T2V 模型通过在大规模开放域文本视频数据集上进行训练,展现出生成高度逼真视频的强大能力。然而,由于这些数据集中缺乏双手操作数据,此类模型难以泛化到双臂机器人系统以预测其未来行为。对下游任务进行微调是必要的,但也带来两大挑战:(1)双臂系统需要双臂协调动作,这会引入更复杂的动态特性,现有的 T2V 模型难以表示。(2)由于数据收集成本高昂,公开的双臂数据集稀缺。因此,直接对现有的视频扩散模型进行微调往往会导致对手臂运动的预测不准确,无法捕捉机器人与物体的动态相互作用,从而导致双手执行的轨迹不可靠。为了克服这些挑战,提出一个两阶段微调框架,将运动细节明确地集成到视频生成过程中,如图 (b) 所示。利用光流对像素级运动进行编码,并预测反映细粒度运动模式的未来光流序列。这些预测的光流用于指导视频生成过程,使模型能够生成更精确的视频。


文本-到-流生成

首先展示当前 T2V 模型在预测双手行为方面的局限性。用 CogVideoX 作为基础模型,并使用两个双臂数据集(RDT [13] 和 RoboMIND [19])评估其零样本泛化能力。然后,在包含这两个数据集的组合数据集上对 CogVideoX 进行微调,以评估其适应双臂系统的能力。

如下图 (a) 所示,当给出初始观察结果并提示“打开盖子并将玉米放入锅中”时,原始 CogVideoX 会生成一只虚假的人手和一颗玉米来遵循指令。它未能将双臂的视觉语义融入初始观察结果中,而是仅仅专注于生成与文本提示一致的帧。因此,它无法规划有效的轨迹。







请到「今天看啥」查看全文