正文
无需机器人的数据收集系统
。在没有机器人的情况下在野外收集数据并用这些数据训练机器人已经成为降低系统总成本的一个有吸引力的方向。先前的研究如 [7, 38, 35] 提出了低成本的野外数据收集系统。与直接使用人体视频进行训练[36]相比,这些系统捕捉到了更细粒度的人体运动,并帮助机器人完成复杂的任务,如泡茶[38]、擦盘子[7, 38]和使用空气炸锅[35]。
ARCap 是一个基于 AR 的数据收集接口和策略学习框架,旨在将人手运动捕捉数据传输到机器人控制策略。ARCap 系统设计的主要特点是:
-
• 实时反馈。AR 提供机器人状态的实时可视化,引导用户在没有实体机器人的情况下收集高质量且机器人可重现的演示数据。
-
• 跨具身。AR 可视化支持平行钳口夹持器和多指灵巧手,允许用户使用同一系统收集不同类型的机器人硬件的数据。
-
• 便携性。该系统具有独立的电源、存储和无线跟踪功能,可在野外收集数据。
如图所示:ARCap 系统概述。(a)收集人手运动数据。(b)提供实时 AR 反馈,在 AR 显示中可视化重定位到人手的虚拟机器人。(c)推出使用收集数据训练的机器人策略。
ARCap 系统设计
便携式机器人数据收集接口 [38, 7, 35] 的最新进展,使得无需物理机器人即可扩大机器人数据收集。但是,由于在数据收集过程中没有来自机器人的实时反馈,因此无法保证收集的数据可以在实际机器人上重现。已经观察到几种故障模式:(1)人类移动速度太快,机器人无法复制;(2)人与机器人之间的尺寸差异导致机器人与环境发生碰撞,即使人类不会发生碰撞;(3)一个数据收集系统是为一个机器人具身设计的,需要为不同的机器人末端执行器重新设计。
信息丰富的 AR 反馈
在 ARCap 中,实现视觉和触觉反馈,告知用户有关摄像头可见性、机器人运动学、关节速度限制以及机器人与环境之间潜在碰撞的信息。
a) 实时可见性检查:模仿学习的一个常见失败模式,是操作场景并不总是可见的。这个问题经常发生,因为机器人使用的 RGB-D 相机视野通常比用于数据收集的相机(本文例子是 Quest 3 的透视相机)更窄。为了帮助演示者在数据收集期间始终将操作场景保持在深度相机的视野范围内,渲染一个矩形框来可视化 RGB-D 相机的实际视野,如图所示。在收集数据时,用户需要主动将场景保持在框架内,以确保正确记录视觉数据。