正文
对于微软来说,要做到端到端面临一个问题,就是你要测试几件事情:
1)产品是否成立。
2)产品是不是能够形成 Feedback Loop ( 反馈回路 ) 去进一步推进技术。
3)在产品技术这两极之外,用户是不是真的能用起来。比如说 Siri 和谷歌助手,我们所有人都知道,基于知识的对话是很酷的,但就是没人用。
4)商业模式。
基于以上几方面的考虑,我们的思路是:
第一步,在中国本土环境下,把图文视听、全双工、全时感官等结构做到最完整,同时这也会走的很快;
第二步 , 日本文化和中国比较接近,且商业环境也很正规,我们在日本商业模式测试期间,通过在日本第二大超市罗森,用 Rinna(小冰日本版本)做了线上线下的转化,转化率(拿着线上获得的优惠券去线下消费)超过 49% ;
第三步,我们在美国做微软自己的产品,包括 Windows 、Office 和 Skype 等。这大概是目前我们在人工智能方面的一个战略布局。
二、小冰背后的技术
机器之心:能介绍一下小冰背后的一些相关技术和使用的微软平台吗?这体现出微软的何种技术思路和战略?
李笛
:沈向洋有一句话,「我把过去十八年积累的各种各样的技能,基本都用在了小冰身上。」因为小冰是一个非常好的测试环境,用户的参与度非常高,我们用户平均的 CPS(一次对话的长度)是 23,其他类聊天机器人大约是 3,所以你更新一个点,你就有多于他们十倍的机会去获得反馈。这对于微软的技术有非常大的推进作用。
微软的前端通过端到端去搜集形成 Feedback Loop ( 反馈回路 ) 这部分产品。从后端来说,这个技术说的玄一点叫「情感计算」,但具体来说,它实际上是一套通用对话服务,利用小冰做出来,然后提供给微软内部其他产品的,使其具备可以去处理对话的能力。这套系统现在 Cortana 也在用,它有点像我们原来做搜索引擎时的长尾体验,谷歌刚出来的时候不是唯一一个搜索引擎,每个搜索引擎都跟今天的人工智能很像——是某个领域的机器人。谷歌之所以称之为最强,我认为是因为是长尾体验,这好比你在上面搜什么内容都有结果。而我们的对话服务和这个很相似,而这种服务是最有价值的。
微软还有一些其他的东西是共用的。比如说认知服务,其中的情绪识别,都是从需求出发。还有语音识别和语音合成,在小冰这儿我们叫全双工,它可以是基于文本的对话引擎,然后在语音合成上达到一定的自然度,语音识别延时不能太高,要有预判,小冰的整个语音相关都是技术组合。
总体来说,微软的共有三类技术用在了小冰上面,第一类是积累了多年的黑科技,比如说小冰的读心术;第二类是情感计算等基础类技术;第三类是共同的管道、服务和舞台。
机器之心:在处理一些问答类任务上,小冰用到了哪些知识图谱和知识来源?
李笛:
首先,我们有基于微软的「实体引擎」,它跟谷歌的知识图谱不太一样,比他们简单。同时在这个基础上,我们也有基于问答的 BingKnows(必应知识库),是一种聚合。现在我们又加了一层东西叫社交问答,这类知识没有那么深度,但相关性比较好,能够较好的在对话中垫出一层,但目前而言,深度问答还实现不了。
我们还做了 DirectChat(业界首次脱离对话语料库结构,注解学习互联网海量非结构化大数据进行对话),比如说一些网页本身具备知识图谱的源,那我们的重点是把网页里的信息快速的打成 QueryResponse(查询响应),这是一定程度的问答。再比如说把一个很长的文档灌进来,就可以直接把它变成对话的知识,质量没有深度知识那么好,但能够实现。
机器之心:小冰如何解决多轮对话的问题?
李笛:
多轮对话的特点是有弹性。我们承认,到今天为止,小冰依然会有前言不搭后语的情况,但这个弹性很迷人。当你的对话足够有情感,用户的容忍程度会高。在真正的对话中双方是对等的,他们都负担着让这个对话,快乐的继续下去地任务。但如果让用户觉得这只是一个和他完成固定程序的工具,他就不会保持对等,他的容忍度一下就降低了。
单轮对话是最短的路径。这就好比是设计一个推荐系统,能一轮就决不使用两轮,最好你什么不问,我推送给你,这是不一样的。
机器之心:那小冰在理解和处理上下文时,主要是考虑了哪些因素?
李笛
:这里面有这么几件事:
第一,我们的用户画像,能够基于上下文确定所产生的动机,这个用户画像是跨 Session(阶段)的,我们做了一些产品上面的尝试,比如说去记忆用户一些情感上的变化;
第二,在同一个 Session(阶段)里考量三个因素,第一个因素就是考虑前面的话题,而不是关键词,比如说咱们俩现在都在聊明星赵丽颖这个话题,那赵丽颖就是我们就是上下文的话题,相比较之前基于关键词的方式要好。基于话题的方式可以做到对上下文关联时覆盖长尾。我们现在大概有 36 个 Domain(域),而每个 Domain(域)里又有若干话题。