正文
参与:黄玉胜、吴攀
强化学习(RL)和生成对抗网络(GAN)都是近来的热门研究主题,已经在许多领域得到了非常出色的表现。近日,伯克利和 OpenAI 的一项新研究将这两者组合到了一起。在一篇名为《用于强化学习智能体的自动目标生成(Automatic Goal Generation for Reinforcement Learning Agents)》的论文中,研究者提出了一种让智能体可以自动发现目标的方法。机器之心对该论文进行了摘要介绍,论文原文请参阅:https://arxiv.org/abs/1705.06366
强化学习是一种训练智能体执行任务的强大技术。然而,强化学习训练的智能体只能通过其奖励函数(reward function)实现单一任务,这种方法不能很好地扩展到智能体需要执行各种不同的任务集合中,例如导航到房间的不同位置或将物体移动到不同位置。相反,我们提出了一种允许智能体自动发现其能够执行的任务范围的方法。我们使用生成器网络给智能体提出任务,然后试着实现并将其作为目标状态(goal state)。该生成器网络使用对抗训练进行优化,以产生总是处于合适难度的智能体任务。因此,我们的方法自动生成任务,以供智能体学习。我们表明,通过使用此框架,智能体可以高效自动地学习执行广泛的任务,而不需要任何预先的环境知识。我们的方法也可学习以稀疏奖励(sparse reward)来完成任务,而在以往这是重大的挑战。