OpenAI和DeepMind联合开发根据人类反馈的强化学习算法，机器可后空翻（附视频、论文）

云头条 · 公众号 · 科技媒体 · 2017-06-14 21:11

正文

请到「今天看啥」查看全文

我们的方法显示采样效率非常高――如前所述，后空翻这个视频需要近1000比特的人类反馈。它花了人类评估者不到一小时的时间；而在后台，学习策略积累了大约70个小时的总体体验（以比实时快得多的速度加以模拟）。我们会继续努力减少人类需要提供的反馈量。你可以在下面这个视频中看到训练过程的加速版。

我们已经在模拟的机器人和雅达利（Atari）领域中对许多任务测试了我们采用的方法（未允许访问奖励函数：所以在雅达利游戏中，无法访问游戏得分）。我们的代理可以从人类反馈中学习，从而在我们测试的许多环境中获得出色的、有时胜过人类的表现。在下面这个动画中，你可以看到用我们的技术训练的代理在玩各种各样的雅达利游戏。每一帧右侧的横条表示每个代理的预测，即预测人类评估者对当前行为的认可程度。这些直观的画面表明，用人类反馈训练的代理学会了注重游戏《深海游弋》（Seaquest）中的氧气（左边），预料《打砖块》（Breakout）和《乒乓》（Pong）中的奖励（中间），或者搞清楚如何在《狂野飙车》（Enduro）中撞车后立马恢复过来（右边）。