正文
雷锋网:自然语言处理(NLP)这一块呢?
王士进
:NLP 方面,讯飞从 2014 年开始提出 “讯飞超脑计划”,同时我们在 2015 年承担科技部 863 的高考类人答题项目。在 NLP 这块,我们主要在做包括语言理解、知识表达、联想推理、以及自主学习方面的相关工作。
在 NLP 里面,其中一个工作是关于知识的构建和表示,我们参加了 NIST KBP 的比赛并获得了第一名,第二个工作是现在业界认为比较难的常识表示,我们提出了深度联想模型,并参加了第一届 winograd 比赛,获得了第一名。
第三个工作:知识图谱构建以后,如何为精准的问答去做帮助?我们最近在做一个非常重要的课题,叫机器阅读理解,给定一篇或者几篇文章,对于这里面的任何一个问题,机器要能够给出精准的问答。
以上是我们在自然语言技术上面做的一些工作。
雷锋网:自然语言处理这块,您觉得它主要的难点是什么?
王士进
:自然语言最大的处理难点就是来自于它的歧义,怎么去消除歧义,在于如何引入知识和表示知识,这块是我们正在积极探索的。
雷锋网:会采用哪些最新的技术去解决这些问题?
王士进:
技术的话主要是以下几点:
-
第一点就是语言的深度语义表示。以前我们在自然语言处理时经常用到词表,通过词表去区分不同的词和语义。原来离散表示最大的问题就在于词跟词之间的语义它会表示不出来,现在通过深度学习产生的 Word Embedding,其实上就是语义矢量,能更好的表示词,这是现在 NLP 中一个核心的技术。
-
在获得语义矢量之后,可以更精准的去做知识的表示、推理等任务。比如,我们原来的推理其实更多是符号层面的一些推理。符号层面的推理有一个非常大的问题:由于歧义和知识没办法表达,所以说这种推理总是有限的。但是我们现在用深度语义,使得这个问题有了被解决的可能。语义矢量表示为基础的自然语言处理框架,使得 NLP 领域很有可能会实现非常大的一个突破。
语音助手
雷锋网:科大讯飞的语音助手做的怎么样?
王士进:
讯飞在四年前就开始布局语音助手,和咪咕数媒一起推出的咪咕灵犀经过几年的发展已经在本土语音助手排名第一(注:易观国际数据),并且讯飞有非常大的一个团队在做人机交互,也就是我们的 AIUI 系统。我们认为这里面需要有几个核心功能:
第一个核心功能跟语音识别效果相关。我们在智能家居的环境里,在车载的环境里,在其他很多的场景里都在持续优化语音识别的能力。
第二个就是语义纠错和语义理解功能。语音识别变成文字这只是第一步,第二步是怎样结合知识、常识,怎样结合上下文,去对用户的内容作出更精确的理解,并对错误进行纠正。
但是这里目前有一个悖论,因为从用户的角度来说,他们希望的是一个无所不能的助手,但是从现代技术的角度来看,我们在一些垂直的领域和场景才能做到实用。
第三个就是多轮对话。多轮对话其实更多地也是结合上下文和垂直场景,以此在垂直场景里面打造完全一个可以更智能的助手。
雷锋网:做语音助手的难点在哪儿?怎样看待其他的语音助手?
王士进:
首先语音助手从提出理念到现在,其实已经经过了几代。
最早第一代是以功能性为主,比如说拨打电话,发短信,类似这样的一些基础功能。大家发现,这里面可能还会有一些问题,它并不是人用手机的刚需,因为无论是电话也好,短信也好,基本上用触控的方式已经很方便了,特别是苹果手机出来了以后,所以说它不是一个刚需。
再者,当时那个年代,语音交互并不是一个普遍被接受的模式,我们很少看到有人用,因为大家总觉得语音是一个相对比较私密的事情,所以很少有人在公共场合下面去用语音跟机器做交互。
第二代,包括讯飞在内,很多语音助手都引入了闲聊,后续的微软小冰等采取的其实也是这样的策略,使得很多人愿意去调戏语音助手,这个概念也火了一段时间。虽然里面也有一些简单的知识问答,但更多的是以闲聊为主。
现在则是第三代,经过前两轮的思考以后,用户对语音助手有什么样的期望呢?我们认为,在语音识别、视觉识别准确率已经这么高的情况下,现在的语音助手可以以任务为中心,协助人在一些垂直场景里面,去做一些更真实的应用。
我们 AIUI 系统的多轮对话,其实也是想围绕任务为中心,通过这种多轮的人机交互的形式,无论是人还是机器发起,满足用户的一些真实需求。
雷锋网:以任务为中心的,像一个个 APP 那样?
王士进:
对,类似于一个 APP 的功能。亚马逊的 Echo 为什么这么火?因为亚马逊把垂直领域扩展的功能开放出来了,APP 开发商、服务厂家能够定制自己的服务,使得亚马逊这个庞大的平台可以承载越来越多的功能,所以我觉得这是大家都非常认可的最核心的一点。
雷锋网:讯飞在车载语音助手方面的进展如何呢?难点在哪?
王士进:
车载这块讯飞进入的更早,因为车载离产业更近一点,这种交互方式也更刚需一点。