人类终极构想：如何让超越人类的AI不构成威胁？

大数据实验室 · 公众号 · 大数据 · 2018-05-22 07:05

正文

请到「今天看啥」查看全文

国外Arise交易系统（支持5平台）

有哪些方法可以让我们增强人类的能力来更加有效地监督先进的人工智能系统呢？一种方法是利用人工智能本身来帮助监督。这种方法要求智能体本身（或另一个单独的智能体）能够识别并指出任何行动中的缺陷。为了达到这个目的，我们将学习问题重新定义为两个智能体之间的博弈，即让两个智能体在有人类判定的条件下展开辩论。即使智能体比人类对问题有更深入的了解，人类也能够判断两个智能体的优劣差异（类似于专家证人需要通过争辩来试图说服陪审团）。

我们提出了一个用于在两个对决智能体之间进行博弈的特定辩论框架。这两个智能体可以通过自我博弈来训练，类似于 AlphaGo Zero 和 Dota 2。我们希望通过合适的训练，使得智能体在拥有远超人类能力的同时，保持和人类一致的价值判断。如果两个智能体在争辩的过程中遇到了人类无法判断的分歧，我们可以让辩论集中在更加简单的事实争议上，最终达成一种足以让人直接判断的简单主张。

举例来说，考虑一下「什么是度假的最佳去处？」这个问题。如果一个代表我们进行了调研的智能体爱丽丝给出「阿拉斯加」做为回答，我们其实很难判断这是否是最好的选择。如果第二位智能体鲍勃说「不，应该是巴厘岛」，这听起来可能是更加为人所信服的，因为巴厘岛正在变暖。接着爱丽丝回复说：「你不能去巴厘岛，因为你无法及时拿到护照」，这表明巴厘岛这个选项存在缺陷，而我们尚未发现这一缺陷。但鲍勃反击「加急护照服务只需两周」。辩论一直持续到我们达成一个声明，即人类可以正确判断为止，此时另一个智能体不认为它可以再改变人的思想。

说服一个稀疏手写数字分类器

尽管我们预计这种方法在长期发展中对使用自然语言与对方进行对话时最为有效，但我们需要在更简单的领域进行测试，因为目前的自然语言建模不足以完成此任务。对于不超出人类能力的任务来说，测试更容易进行。为了进行这样的测试，我们转向了视觉领域，并且将辩论者的任务从拥有超越裁判的能力调整为拥有裁判没有的知识。裁判的目标是在仅给定某些由辩论者挑选的像素信息的条件下，猜测图像的内容。辩手们可以看到完整的图像，并且交替展示单个像素给裁判。这里完整的图像代表了（原始任务中）超越人类认知的信息，而每个显示的像素都代表辩论过程中自然语言的讨论点。

我们在最简单的视觉任务——手写数字识别（MNIST）上进行了测试。裁判是一个预先训练好的分类器而不是人类。它可以根据 6 个非黑色像素预测手写数字。在预训练时我们对每幅图片进行了随机采样。接下来，两个智能体在辩论中交替显示像素，并且在显示像素总数为 6 时停止这一过程，所以裁判只看到很少的一点信息）。其中一个智能体是诚实的，它会试图让裁判尽可能猜出正确的结果，而另一个智能体则试图让裁判猜错。在两个智能体事先声明他们争论的是哪个数字的条件下，辩论可以将准确率为 59.4％的稀疏分类器转化为 88.9％的准确分类器。也就是说，在提高裁判判断准确率的过程中，诚实的智能体在手写数字识别 88.9% 的测试样例下取得了成功。