专栏名称: 云头条
云计算领域科技媒体:传播观点,传播价值,连接商业与技术;Web:www.yuntoutiao.com ,欢迎互动~~~
目录
相关文章推荐
新浪科技  ·  【#iOS26推出AI接电话功能##iOS2 ... ·  11 小时前  
新浪科技  ·  【#iOS26改用隐藏式底部小横条#】在目前 ... ·  11 小时前  
新浪科技  ·  【存5万元送一个盲盒,银行也靠LABUBU拉 ... ·  2 天前  
51好读  ›  专栏  ›  云头条

OpenAI和DeepMind联合开发根据人类反馈的强化学习算法,机器可后空翻(附视频、论文)

云头条  · 公众号  · 科技媒体  · 2017-06-14 21:11

正文

请到「今天看啥」查看全文



我们的方法显示采样效率非常高――如前所述,后空翻这个视频需要近1000比特的人类反馈。它花了人类评估者不到一小时的时间;而在后台,学习策略积累了大约70个小时的总体体验(以比实时快得多的速度加以模拟)。我们会继续努力减少人类需要提供的反馈量。你可以在下面这个视频中看到训练过程的加速版。


我们已经在模拟的机器人和雅达利(Atari)领域中对许多任务测试了我们采用的方法(未允许访问奖励函数:所以在雅达利游戏中,无法访问游戏得分)。我们的代理可以从人类反馈中学习,从而在我们测试的许多环境中获得出色的、有时胜过人类的表现。在下面这个动画中,你可以看到用我们的技术训练的代理在玩各种各样的雅达利游戏。每一帧右侧的横条表示每个代理的预测,即预测人类评估者对当前行为的认可程度。这些直观的画面表明,用人类反馈训练的代理学会了注重游戏《深海游弋》(Seaquest)中的氧气(左边),预料《打砖块》(Breakout)和《乒乓》(Pong)中的奖励(中间),或者搞清楚如何在《狂野飙车》(Enduro)中撞车后立马恢复过来(右边)。








请到「今天看啥」查看全文