学界 | 完善强化学习安全性：UC Berkeley提出约束型策略优化新算法（附代码）

机器之心 · 公众号 · AI · 2017-07-08 13:14

正文

请到「今天看啥」查看全文

深度强化学习已经在很难的控制问题上取得了卓越的成就：借助深度强化学习（deep RL），智能体（agent）已经学会了通过分析每个像素来打电子游戏，控制仿真实验和现实世界中的机器人，从示范中学习对象控制（object manipulation），甚至打败人类围棋冠军。我们希望能够在短期内把深度强化学习带出实验室，付诸实践，用于日常技术当中，比如无人机控制（UAV Control）和家用机器人。但是在此之前，我们不得不解决最为重要的问题：安全性。

我们最近研发了一种原则性很强的方法来把安全性需求和其它约束直接并入到一整族最新型的深度强化学习算法中。我们的方法——约束型策略优化（Constrained Policy Optimization——CPO），可以确保智能体在学习过程中的每一步都满足约束条件。具体来说，我们尝试满足成本方面的约束：设计者会给智能体应该避免的每一个结果都分配一个成本（cost）和一个限制（limit），而且智能体则会学着去使它的所有成本都保持在限制之下。

此类约束型强化学习方法面世已久，而且甚至已经在伯克利引出了与之密切相关的研究——概率型安全策略迁移（probalistically safe policy transfer）。但是 CPO 是首个让深度强化学习得以应用于一般情况下的约束型环境中的算法——而且，它是有理论上的性能保证的。

在我们的论文中，我们描述了一个运行 CPO 的高效方法，并且展示了在真实的机器人仿真中，当满足任务中的约束条件时，CPO 可成功训练神经网络智能体实现奖励（reward）最大化。

如果你有兴趣把 CPO 应用到你的约束型强化学习问题当中，我们的开源代码正应所需： https://github.com/jachiam/cpo

为什么我们需要安全性约束？

强化学习智能体的训练目标是最大化奖励信号，人类必须事先指定设计这一过程的范围。如果奖励信号没有被正确设计，智能体就会去学习非计划中的甚至是有害的行为。如果设计奖励函数很容易，这将不是问题，但不幸的是从根本上来讲，奖励函数设计很有挑战性；这就是采用约束（constraint）的关键动机所在。

让我们用一个基于真实用例的简化案例来说明：一个移动式机器人理应在一个安全区域内完成一些任务（比如说绕圈跑）。如果它离开安全区域的频率小于一定的预选阈值（pre-selected threshold），我们就认为机器人是「安全」的，否则为「不安全」。

只考虑奖励（为了跑得尽可能快）和约束（离开安全区域的频率），在约束型强化学习环境中描述此类问题并不难。但是对于标准的强化学习来讲，由于我们不得不单独通过奖励函数设计所有的行为，问题将会变得很难。错误的奖励设计也能够导致智能体过于畏首畏尾，

导致无效；或者过于风险偏好，

并因此导致危险（这里的「安全」区域在两个蓝色挡板之间）。