正文
被动数据的机器人学习
。视觉 SLAM [21] 和逆动力学模型 [22] 可用于估计第一人称视频的轨迹,能够训练策略,将这些轨迹作为机器人动作的近似值,这些动作来自无动作和非机器人数据。虽然视觉 SLAM 及其后续技术 [23, 24, 25, 26] 提供了良好的局部轨迹估计,但其准确性依赖于图像视图中一致且良好的视觉特征。使用 IL 在精选数据上训练的
机器人基础模型 (RFM)
[9, 27] 可以解决具身差距问题,并通过一致的机器人动作增强被动数据源 [28]。然而,当前的 RFM 仍然缺乏对多样化环境的覆盖,并且无法在训练期间利用带有噪声动作标签的被动数据。为了解决这些问题,用 MBL 训练了一个专家重标注 MBRA 模型,以更好地逼近合理的机器人动作。由于 MBL 在训练期间对噪声动作标签具有鲁棒性,可以使用被动数据源训练 MBRA 模型,并使用它来重新标注大量被动数据,从而缩小具身差距。然后,可以训练 LogoNav,它可以成功执行各种长距离导航任务,并展示出相对于基线策略的明显优势。
为了能够使用这些廉价、可扩展的数据源,本文提出一种基于稳健模型的学习方法,用于训练一个短期专家重标注模型,以生成连接两个邻近状态的高质量动作。用这个短期重标注模型来标注被动数据集中的动作,从而获得比原始数据集更清晰、更高质量的动作。然后,该重标注模型的输出被蒸馏为长视界策略,该策略可根据视觉目标或未来的 GPS 航点进行调整,以实现长距离导航。如图所示:
对全球部署的一系列低成本机器人以及包括四足机器人在内的各种实例进行全面的评估,发现该系统能够在三大洲的六个不同城市中展现出强大的泛化性能。
本文专注于从高度多样化但次优的数据集 D_n 中学习长距离导航策略。具体而言,希望从众包数据集中学习高质量的导航;这需要训练一个重标注器,使其能够预测比原始数据集中更好的行为。假设可以访问一个规模较小的干净数据集 D^∗,其中包含高质量行为,并且 |D^∗| << |D_n|。虽然 D_n 中的观测值可能代表较高的状态覆盖率,但其行为质量较低:这既是因为状态估计误差导致的不准确性,也是因为未经筛选且技能水平参差不齐的人类操作员的异质性。提出的方法分为两步(如图所示):步骤 1),用 MBL 学习一个基于模型的重标注模型,从噪声数据中学习;步骤 2),训练一个长距离导航策略来模仿第一步重标注的行为。
学习短期重标注模型 (MBRA)