学界 | 伯克利与OpenAI整合强化学习与GAN：让智能体学习自动发现目标

机器之心 · 公众号 · AI · 2017-05-20 11:51

正文

请到「今天看啥」查看全文

参与：黄玉胜、吴攀

强化学习（RL）和生成对抗网络（GAN）都是近来的热门研究主题，已经在许多领域得到了非常出色的表现。近日，伯克利和 OpenAI 的一项新研究将这两者组合到了一起。在一篇名为《用于强化学习智能体的自动目标生成（Automatic Goal Generation for Reinforcement Learning Agents）》的论文中，研究者提出了一种让智能体可以自动发现目标的方法。机器之心对该论文进行了摘要介绍，论文原文请参阅：https://arxiv.org/abs/1705.06366

强化学习是一种训练智能体执行任务的强大技术。然而，强化学习训练的智能体只能通过其奖励函数（reward function）实现单一任务，这种方法不能很好地扩展到智能体需要执行各种不同的任务集合中，例如导航到房间的不同位置或将物体移动到不同位置。相反，我们提出了一种允许智能体自动发现其能够执行的任务范围的方法。我们使用生成器网络给智能体提出任务，然后试着实现并将其作为目标状态（goal state）。该生成器网络使用对抗训练进行优化，以产生总是处于合适难度的智能体任务。因此，我们的方法自动生成任务，以供智能体学习。我们表明，通过使用此框架，智能体可以高效自动地学习执行广泛的任务，而不需要任何预先的环境知识。我们的方法也可学习以稀疏奖励（sparse reward）来完成任务，而在以往这是重大的挑战。

请到「今天看啥」查看全文

推荐文章

经管之家 · 裁员+降薪！已成2016全球银行业关键词，半数德银员工羞于透露身份，比比欧美与国内谁日子难过

8 年前

教你看穿男人的心 · 男人10句委婉“谎言”背后的真意！

8 年前

果壳 · 小燕子，穿花衣——什么？燕子不都是黑白的吗？？

8 年前

军事前沿 · 世界上有六个国家：一旦离开中国就会立马完蛋！

8 年前

格上私募圈 · 巴菲特同门师兄，48年累计回报1240倍，给了48个实用锦囊

8 年前