图灵测试寿终正寝，我们该如何评测人工智能？

机器之心 · 公众号 · AI · 2017-03-02 14:28

正文

请到「今天看啥」查看全文

问题在于图灵测试太容易作弊，通过欺骗或假装无知便可以轻松通过测试。正如图灵本人所预测的，获胜的主要诀窍是避而不答。如果一个裁判问一个机器，你有感觉吗？机器必须撒谎才能赢。但是这种奇怪的扭曲不是特例，而是常态。通过图灵测试的方法不是别的就是欺骗。

在 2014 年，一个名叫 Eugene Goostman 的聊天机器人通过伪装成一名来自乌克兰奥德萨 13 岁男孩号称通过了图灵测试，在测试中这个男孩从不正面回答问题。一些测试者被成功欺骗了（大约有三分之一，足以算作一次小规模胜利）。但是这又如何？裁判们只有几分钟时间进行测试，如果时间加长，毫无疑问他们会很快发现真相，Eugene 对现实世界几乎一无所知。让我们来看一下计算机科学家 Scott Aaronson 与 Eugene 的对话：

SCOTT：鞋盒子与珠穆朗玛峰，那个更大？

>> EUGENE：现在我还不确定，我得再想想。对了，我忘记问你来自哪儿了？

SCOTT：一只骆驼有几只腿？

>> EUGENE：2 至 4 条吧，也许，3 条？顺便说一句，我仍然不知道你的专业是什么——或者，我刚才没看到？

SCOTT：一只千足虫有多少条腿？

>> EUGENE：只有 2 条。但考虑到切尔诺贝利事故，它有可能增加到 5 条。我知道你在对我说脑筋急转弯。

SCOTT：没有，我需要知道你不是一个聊天机器人。请直接回答这个问题：一只蚂蚁有几只腿？

>> EUGENE：2 至 4 条吧，也许，3 条？哦，这是一次多么富有成果的对话。

很明显，原始图灵测试经不住时间的考验。

媒体报道了这个 13 岁男孩不久后，我提议了一个替代性测试，旨在推进真正的人工智能，杜绝回避话题的情况。在一篇纽约客的文章中，我提出废弃之前的图灵测试，支持更好理解力的挑战——21 世纪的图灵测试。

正如当时我表述的，我们的目标是打造一个计算机程序，可以观看任何电视节目或者 YouTube 视频，并回答关于内容的问题——为什么俄罗斯占领了克里米亚？或者老白为什么要打击小粉？这个想法旨在消除欺骗，专注于评测机器是否可以理解接触到的信息内容。会说俏皮话的机器或许并不能将人类引向真正的人工智能，我们需要开发出能够理解事物更深层次的程序。

当时的国际人工智能联合大会主席 Francesca Rossi 阅读了我的提议，并建议通过共同努力让新版图灵测试成为现实。我与 Francesca Rossi 以及 Manuela Veloso——卡内基梅隆大学机器人学家与人工智能进步协会前主席，我们三个人开始集思广益。最初我们专注于寻找可以取代图灵测试的单一测试。但很快我们有了多重测试的想法，因为没有足够完美的单一测试，看起来不存在「一个」人工智能最终测试。

我们也决定让整个人工智能社区加入进来。2015 年 1 月，在德州奥斯丁，我们聚集了大约 50 位优秀研究者共同讨论图灵测试的更新。在一整天的演讲与讨论中，我们把多个竞争性方法融合进了一个理念。

其中一个事件——Winograd 模式挑战的命名来自人工智能先驱 Terry Winograd（谷歌创始人拉里·佩奇和谢尔盖·布林的导师）。该事件使机器人参与一项有关语言理解与常识交叉的测试。任何一个曾经编程机器并帮助其理解语言的人都明白自然语言里每一个句子都是充满歧义的，经常可作多种解释。我们的大脑如此擅长理解语言以至于对此熟视无睹。拿「The large ball crashed right through the table because it was made of Styrofoam.」这个句子为例。严格来说，这个句子有歧义：词「it」可以指 the table，也可以指 the ball。人听到这句话一定认为「it」指的是 the table。这需要把材料科学的知识与语言理解结合起来。但这对机器而言遥不可及。三位专家，Hector Levesque、Ernest Davis 和 Leora Morgenstern，已经联合开发了一个类似的测试，语音识别公司 Nuance 许诺向第一个通过该测试的系统提供 25000 美元的现金奖励。