专栏名称: 人工智能头条
专注人工智能技术前沿、实战技巧及大牛心得。
目录
相关文章推荐
爱可可-爱生活  ·  晚安~ #晚安# -20250608223927 ·  15 小时前  
彭涛说  ·  我跟AI打了个视频电话... ·  2 天前  
彭涛说  ·  我跟AI打了个视频电话... ·  2 天前  
爱可可-爱生活  ·  [LG]《MesaNet: ... ·  2 天前  
爱可可-爱生活  ·  晚安~ #晚安# -20250606225007 ·  2 天前  
新机器视觉  ·  移动机器人室内定位技术综述 ·  2 天前  
51好读  ›  专栏  ›  人工智能头条

Open.ai新算法:一小时内训练AI系统后空翻,仅需900Bit的人类反馈数据

人工智能头条  · 公众号  · AI  · 2017-06-14 09:56

正文

请到「今天看啥」查看全文


仅需900bit的人类反馈,我们的系统就学会了后空翻

整体的培训过程是一个三节点的反馈循环,其中包括人类、代理对目标的理解、以及RL训练系统。

【三节点图】

我们的AI代理最开始是在环境中随机行动,并定期向人类提供其行为的两个视频截图,人类选择其中最接近完成任务的一张(在这个问题下,是指后空翻任务),反馈给代理。AI系统逐渐地通过寻找最能表达人类目的的反馈函数(reward function)来创建该任务的模型。然后通过RL的方式学习如何实现这一目标。随着它行为的改善,它会继续针对其最不确定的环节征求人们对轨迹的正确反馈,并进一步提高对目标的理解。

我们的方法在效率上表现出色,如前所述,学会后空翻只需要不到1000bit的反馈数据。这就意味着,人类参与其中为机器提供反馈数据的工作时间不到一小时。而这一任务的平均表现为70小时(且模拟测量时假设的速率比实际操作时要快)。我们将继续努力减少人类对反馈数据的供应。您可以从以下视频中看到培训过程的加速版本。

https://youtu.be/oC7Cw3fu3gU

我们已经在模拟机器人和Atari的许多任务上测试了我们的方法(系统没有访问reward function的权限:所以在Atari,系统没有办法访问游戏得分)。我们的代理可以从人类的反馈中学习,在我们测试的大部分环境中都能够实现强大的,甚至是超人的表现。 在以下动画中,您可以看到通过我们的技术训练的代理正在玩各种Atari游戏。 每个gif图片右侧的竖条表示每个代理预测的人类评估者将对其当前行为的认可程度。这些可视化表明,通过人类的反馈,左图中的代理在学习计量潜水舱中的氧气,中间图中的代理在预估小球敲掉砖块的数量以及轨迹,或者在右图中学习如何从赛车撞车事故中恢复。

【四个gif】

请注意,反馈不需要与环境中的正常的奖励函数保持一致:例如,在赛车比赛中,我们可以训练我们的代理,使其与其他车辆保持持平,而不是为了最大化游戏分数而超过他们。 我们有时会发现,从反馈中学习,比通过正常奖励函数进行强化学习效果更好,因为人类塑造的奖励,比环境中的奖励函数更有效。

【汽车比赛gif】







请到「今天看啥」查看全文


推荐文章
爱可可-爱生活  ·  晚安~ #晚安# -20250608223927
15 小时前
彭涛说  ·  我跟AI打了个视频电话...
2 天前
彭涛说  ·  我跟AI打了个视频电话...
2 天前
爱可可-爱生活  ·  [LG]《MesaNet: Sequence Modeling -20250607055637
2 天前
爱可可-爱生活  ·  晚安~ #晚安# -20250606225007
2 天前
新机器视觉  ·  移动机器人室内定位技术综述
2 天前
橙子说成长  ·  这件事情做得好,升职加薪少不了
8 年前
程序员大咖  ·  在 AI 称王前,你是否先被软件奴役了
7 年前