专栏名称: 大语言模型和具身智体及自动驾驶
讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
相关文章推荐
厦门大学  ·  “梅雨季,我的心情好像也发霉了……” ·  16 小时前  
美丽西湖  ·  从梦想到现实!西湖大学三期即将全面完工 ·  16 小时前  
美丽西湖  ·  从梦想到现实!西湖大学三期即将全面完工 ·  16 小时前  
厦大沪校友  ·  一岁一礼,未来可期 ... ·  21 小时前  
51好读  ›  专栏  ›  大语言模型和具身智体及自动驾驶

Genie Centurion:通过人工-回放-和-细化指导加速规模化真实世界机器人训练

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2025-06-14 07:35

正文

请到「今天看啥」查看全文


硬件设置和遥操作

GCENT 数据采集系统基于 AgiBot G01[1] 机器人平台构建。操作员站采用 VR 系统,其中两个 6 自由度 VR 控制器分别用于控制机器人的双臂末端执行器,并执行干预和回放等操作。这种直观而精确的硬件界面使操作员能够在策略部署期间进行有效的监控和干预。

如图所示,系统为每个按键分配不同的操作。Y 按钮启动推理模式,在机器人上启动默认策略执行。X 按钮触发回放模式,将系统恢复到先前的时间点。侧爪启动接管模式,允许手动控制,以便进行人工演示或校正。 A 按钮用于重置系统,使机器人恢复初始姿态并结束当前数据采集。其他按钮用于控制机器人身体的其他部件。


GCENT 数据收集系统在一个持续迭代的数据循环中运行。它旨在通过在线交互逐步完善策略模型,目标是逐步降低干预率并提高成功率。

1. 初始化:通过人工遥操作收集一小组种子数据 D_0,用于训练初始策略 π_0。

2. 部署:此阶段包含四个关键步骤:

  • (a) 推理:机器人使用当前策略 π_i 和任务哨兵模型 Sentinel_i 自主执行任务。

  • (b) 监控:系统根据人工监督和来自任务哨兵模型的信号判断当前任务步骤是否完成。如果完成,则进入下一步;否则,请求倒回或干预。

  • (c) 回放和细化:这是 GCENT 的一项核心交互功能。它能够实现状态恢复和纠正演示。

  • (d) 数据聚合:任务完成或纠正后,有效轨迹数据,尤其是步骤 (2c) 中成功的纠正轨迹 D_correct,将聚合到数据集 D_i+1 中。

3. 再训练:更新后的数据集 D_i+1 用于微调策略模型和任务哨兵模型,从而生成新版 π_i+1 和 Sentinel_i+1。这些更新后的模型随后被部署到机器人上,并重复部署周期(步骤 2)。此迭代过程持续进行,直到机器人能够自主完成任务并可靠地监控任务状态。







请到「今天看啥」查看全文