前沿 | DeepMind官方解读最新研究：探讨人工智能的「理性人」行为

机器之心 · 公众号 · AI · 2017-02-10 12:12

正文

请到「今天看啥」查看全文

当人工智能超过人类之后，它们会选择消灭我们，还是与我们合作？谷歌旗下公司 DeepMind 的最新研究正在探讨这个问题。Joel Leibo 等人在本周四提交的论文中为我们描述了对不同奖励条件下人工智能/人类对竞争与合作的选择，这个问题的答案可能会影响到如何部署计算机智能来管理复杂的系统，如经济，城市交通与环境系统。

我们应用深度多代理强化学习（deep multi-agent reinforcement learning）的方式模拟了合作的出现。连续社会困境（sequential social dilemmas）这个新概念允许我们为理性智能体互动方式建模，并根据环境性质和人工智能认知能力多少促成一些合作。这项研究可以使我们更好理解和控制复杂的多人工智能系统行为，如经济，交通和环境等领域的各种挑战。

寻求自身利益的人们聚集在一起可以实现很多伟大的成就。为什么会是这样？最符合自己利益的策略会是只关注自己，而忽视他人利益的行动吗？

自私的个人如何、在什么情况下会趋向于合作的问题，是社会科学中的基本问题之一。描述这种现象的最简单和最优雅的模型之一就是著名的囚徒困境。

两名嫌疑犯都被逮捕并单独监禁。如没有任何一人供认，警方就没有足够的证据对两名嫌疑人的主要罪行定罪，但他们已经掌握的证据可为两名嫌疑人都判处一年徒刑。为了诱使囚犯承认，警察同时向两人提供以下选择：如果指证另一名囚犯（「叛变」），你将被释放，但另一个囚犯将服刑三年。如果两个囚犯互相指证（「叛变」），他们都将服刑两年。

事实证明，理性的智能体（agents）在博弈论的意义上是会在博弈过程中经常会选择叛变的，因为不论其他囚徒怎么选择，都会存在纳什均衡，而他们的最优决策就是选择叛变。然而，矛盾的是，如果两个囚徒都是理性人的情况下，他们每一个都会获得两年的囚禁，这要比他们一同狡辩或沉默多一年的囚禁。这种矛盾就是我们所说的社会困境（social dilemma）。