正文
机器人操控领域的最新进展越来越多地利用人类视频数据来增强灵巧操控和基于抓取器的操作。在灵巧操控方面,[4、5、6] 等研究侧重于多指系统的细粒度控制,而 [7] 则融合 affordance 提示。对于抓取器操控,[8、9、10、11] 等端到端视频调节策略将视觉提示转化为可操作的策略。[12]、[13、14]、[15]、[16]、[3] 和 [17] 等方法使用配对的人机演示数据,通过将人类动作与机器人轨迹关联起来,解决了域差距问题。最近,[18]、[19]、[20] 和 [21] 等生成视频技术利用视频合成和文本提示来生成视觉运动策略。这些研究突显使用人类视频演示、配对数据和生成方法来创建更具适应性、更鲁棒机器人操作策略的日益增长趋势。
视频作为机器人学习的提示
最近的研究[22, 23]越来越多地使用人类演示视频来指导机器人学习。例如,[14]通过使用无监督领域自适应和关键点提取将人类视频转换为以机器人为中心的演示来解决人机具身不匹配的问题。[24]通过对预训练视频嵌入进行调整,将机器人策略实现零样本泛化。类似地,[8]通过交叉注意机制将人类视频映射到机器人动作,而[25]通过对比学习、模仿和有限自适应来提高样本效率和泛化能力。[11]专注于跨具身技能的发现,以获得可迁移的表征。
用于机器人策略学习的扩散模型
扩散模型在生成式计算机视觉领域 [26, 27] 取得了巨大成功,并因此被应用于机器人策略学习。一些先驱性研究 [28, 29, 30] 展示了其生成去噪机器人动作和捕捉多模态行为分布的能力。诸如 [31] 等扩展性研究展示基于 Transformer 的扩散策略在 Open X-Embodiment 数据集上预训练后,在不同机器人平台上的泛化能力。MDT [32] 和 RDT-1B [33] 等模型使用基于 Transformer 的扩散模型,取代传统的 U-Net。RDT-1B 进一步统一不同机器人的动作表征,并整合了多机器人数据以实现双手操作。
基于扩散的策略可以在高维空间中建模多模态动作分布 [28, 34, 35]。 [36] 通过无监督聚类和内在奖励增强这些模型,以维持多种行为模式;[37] 则添加熵正则化器以增强鲁棒性。
本文提出一个两阶段的人类提示学习框架,该框架将机器人数据集与人类演示数据相结合,以应对任务学习中的挑战。其目标是使智体能够从人类演示视频中学习并提取有意义的特征和表征,从而执行特定任务。在第一阶段,用一个视频生成模型,该模型接收人类执行任务的提示视频和机械手的图像。该模型生成机器人执行任务的视频,并通过交叉预测策略嵌入具身迁移信息。在第二阶段,用扩散策略对表征进行微调,并融合人类和机器人数据。统一的动作空间弥合两种模态之间的差距,而基于聚类的损失函数则增强技能分离和多技能模仿性能。在实际任务上的实验证明该框架在提升人机交互和灵活操控方面的有效性。