玩捉迷藏的人工智能玩偶

悦智网 · 公众号 · · 2020-02-04 15:30

正文

请到「今天看啥」查看全文

OpenAI团队在训练机器人玩电子游戏《魔兽争霸2》时就采用了这种技术。去年4月，这个机器人团队打败了人类世界冠军团队。 Alphabet公司的子公司DeepMind就用它在古老的棋盘游戏中取得了胜利。

西雅图艾伦人工智能研究所（Allen Institute for Artificial Intelligence）的研究员阿尼鲁达赫•肯巴维（Aniruddha Kembhavi）说，捉迷藏这类游戏是AI玩偶学习“基础技能”很好的方式。他工作的团队会教AI和人一起玩“画图猜词”游戏，观察游戏玩法让AI学习常识推理和交流的方式。 “不过，我们还远不能将这些非常简单的环境中的初步成果转化到现实世界中。 ”肯巴维说。

在OpenAI的捉迷藏游戏中，隐藏方和寻找方只要赢得游戏就会有奖励，让AI玩偶自己开发策略。在有墙壁、砖块和斜坡的简单3D环境中，玩偶首先学会了奔跑和追逐对方。接下来，隐藏方学会了移动周围的砖块来制造堡垒，寻找方学会了移动斜坡以便自己跳进堡垒。之后，隐藏方学会了在寻找方使用斜坡前，将所有的斜坡移到自己的堡垒中。

接下来就出现了让研究人员惊讶的两种策略。首先，寻找方学会了跳到一个盒子上，然后利用盒子“冲”向堡垒，这样它们就可以跳进堡垒，研究人员都没有意识到游戏环境中有这种实际可行的操作。因此，作为最终对策，隐藏方学会了将所有的盒子锁定，让对方无法将其用作冲浪板。

在这种情况下，AI玩偶在意料之外的行为并不是问题，它们会找到不同路径以获得奖励，而不会制造麻烦。但是，我们也可以想象到结果可能会变得相当严重的情况。我们可以想想尼克•波斯特洛姆（Nick Bostrom）的著名例子，也就是由AI经营的纸夹工厂，其目标是制造尽可能多的纸夹。 2014年，波斯特洛姆告诉本刊，AI可能会意识到“人体是由原子组成的，这些原子可以用来制造很多非常精美的纸夹。 ”

OpenAI研究团队的另一个成员伯恩•贝克（Bowen Baker）指出，即便是在简单的环境中，也很难预测AI玩偶可能会采取的所有行动。