专栏名称: 开发者阿橙

致力于成为国内最好的Python开发者学习交流平台，这里有关于Python的国内外最新消息，每日推送有趣有料的技术干货和社区动态。官方网站：www.python-cn.com

Eric，基于多搜索引擎的自动问答机器人

开发者阿橙 · 公众号 · Python · 2017-06-07 22:17

正文

请到「今天看啥」查看全文

现代的自动问答是将自然语言处理、统计机器学习深度学习相结合的产物。自从1950年代图灵测试而诞生至今，自动问答系统的发展已经有几十年的历史。但真正在产业界得到大家的广泛关注，则得益于2011年Siri和Watson的成功。这一方面归功于机器学习与自然语言处理技术的快速进步，另一方面得益于维基百科等大规模知识库以及海量网络信息，也就是大数据的飞速发展。

然而，现有的自动问答系统还不够完美，部分还是基于关键字模版匹配（包括一些商业产品），无法真正做到语义理解的程度。在通用领域实现一个不被大多数人喷的问答系统更是难上加难。事实上，无论是业界应用还是学术研究， 问句的真实意图分析、问句与答案之间的匹配关系判别 仍然是制约自动问答系统性能的两个关键难题。

几乎所有的问答系统的流程可以归结为以下几部分：

目前的研究工作大多集中于上图的两个虚线框中的内容，有用传统的规则搞的，也有用统计方法搞的，也有用深度学习方法搞的。中文的问答系统，还需要进行分词等工作。问答系统又不同于聊天机器人（小冰等），它是要解决实际问题的。比如客服问答机器人，阿里和京东的都做得非常不错，这不仅是基于他们强大的研发团队，足够的数据支撑模型训练也是重要的因素之一。

然而，我就想做个简单的问答机器人，然后顺利毕业啊。没有那么多公开的中文数据，怎么破？学术界的大多方法还不能很好地运用到工业界。看完论文和大多商业产品后，我开始思考Eric的定位，由于目前中文的问答训练集非常少，并且没有通用的问答训练集，这对于一开始想采用统计机器学习、深度学习训练一个问答模型的我造成了非常大的困难，这个问题足足困扰了我一周。在不断查找资料的过程中我发现了AIML，非常棒的人工智能标记语言。Alice是一个基于AIML实现关键词匹配和简单的推理的聊天机器人，它的语料库非常之大，不过是英语的（(╯﹏╰)）。

但不管怎么样这是一种实现问答机器人的方式，于是我先跑通了基于AIML的问答机器人。但是他仅仅是基于关键词匹配和简单的推理，缺少语义理解的能力，虽然它的可扩展性非常强，但是如果只做到这步的话，我想我是没办法顺利毕业了。

在研究AIML的过程中，我发现了互联网上有许多半结构化数据。比如维基百科，百度百科等。我尝试使用AIML把问句转换成一种结构化的 Query，然后再百度百科中找到对应属性的属性值。比如“王思聪的父亲是谁？”这个问题，AIML根据规则会抽取出“王思聪”，“父亲”。抽取出来的实体和属性是很容易在百度百科中搜索到的。但问题又来了，如果问“王思聪的老爹是？”这类问题，Eric就找不到答案了。为了解决这个问题，我引入了哈工大的同义词词林进行关键词扩展。