独家 | 专访微软小冰负责人李笛：智能助手是创造需求，而非仅提高效率

机器之心 · 公众号 · AI · 2017-01-18 13:33

正文

请到「今天看啥」查看全文

对于微软来说，要做到端到端面临一个问题，就是你要测试几件事情:

1）产品是否成立。

2）产品是不是能够形成 Feedback Loop ( 反馈回路 ) 去进一步推进技术。

3）在产品技术这两极之外，用户是不是真的能用起来。比如说 Siri 和谷歌助手，我们所有人都知道，基于知识的对话是很酷的，但就是没人用。

4）商业模式。

基于以上几方面的考虑，我们的思路是：

第一步，在中国本土环境下，把图文视听、全双工、全时感官等结构做到最完整，同时这也会走的很快；

第二步 , 日本文化和中国比较接近，且商业环境也很正规，我们在日本商业模式测试期间，通过在日本第二大超市罗森，用 Rinna（小冰日本版本）做了线上线下的转化，转化率（拿着线上获得的优惠券去线下消费）超过 49% ；

第三步，我们在美国做微软自己的产品，包括 Windows 、Office 和 Skype 等。这大概是目前我们在人工智能方面的一个战略布局。

二、小冰背后的技术

机器之心：能介绍一下小冰背后的一些相关技术和使用的微软平台吗？这体现出微软的何种技术思路和战略？

李笛：沈向洋有一句话，「我把过去十八年积累的各种各样的技能，基本都用在了小冰身上。」因为小冰是一个非常好的测试环境，用户的参与度非常高，我们用户平均的 CPS（一次对话的长度）是 23，其他类聊天机器人大约是 3，所以你更新一个点，你就有多于他们十倍的机会去获得反馈。这对于微软的技术有非常大的推进作用。

微软的前端通过端到端去搜集形成 Feedback Loop ( 反馈回路 ) 这部分产品。从后端来说，这个技术说的玄一点叫「情感计算」，但具体来说，它实际上是一套通用对话服务，利用小冰做出来，然后提供给微软内部其他产品的，使其具备可以去处理对话的能力。这套系统现在 Cortana 也在用，它有点像我们原来做搜索引擎时的长尾体验，谷歌刚出来的时候不是唯一一个搜索引擎，每个搜索引擎都跟今天的人工智能很像——是某个领域的机器人。谷歌之所以称之为最强，我认为是因为是长尾体验，这好比你在上面搜什么内容都有结果。而我们的对话服务和这个很相似，而这种服务是最有价值的。

微软还有一些其他的东西是共用的。比如说认知服务，其中的情绪识别，都是从需求出发。还有语音识别和语音合成，在小冰这儿我们叫全双工，它可以是基于文本的对话引擎，然后在语音合成上达到一定的自然度，语音识别延时不能太高，要有预判，小冰的整个语音相关都是技术组合。

总体来说，微软的共有三类技术用在了小冰上面，第一类是积累了多年的黑科技，比如说小冰的读心术；第二类是情感计算等基础类技术；第三类是共同的管道、服务和舞台。

机器之心：在处理一些问答类任务上，小冰用到了哪些知识图谱和知识来源？

李笛： 首先，我们有基于微软的「实体引擎」，它跟谷歌的知识图谱不太一样，比他们简单。同时在这个基础上，我们也有基于问答的 BingKnows（必应知识库），是一种聚合。现在我们又加了一层东西叫社交问答，这类知识没有那么深度，但相关性比较好，能够较好的在对话中垫出一层，但目前而言，深度问答还实现不了。

我们还做了 DirectChat（业界首次脱离对话语料库结构，注解学习互联网海量非结构化大数据进行对话），比如说一些网页本身具备知识图谱的源，那我们的重点是把网页里的信息快速的打成 QueryResponse（查询响应），这是一定程度的问答。再比如说把一个很长的文档灌进来，就可以直接把它变成对话的知识，质量没有深度知识那么好，但能够实现。

机器之心：小冰如何解决多轮对话的问题？

李笛： 多轮对话的特点是有弹性。我们承认，到今天为止，小冰依然会有前言不搭后语的情况，但这个弹性很迷人。当你的对话足够有情感，用户的容忍程度会高。在真正的对话中双方是对等的，他们都负担着让这个对话，快乐的继续下去地任务。但如果让用户觉得这只是一个和他完成固定程序的工具，他就不会保持对等，他的容忍度一下就降低了。

单轮对话是最短的路径。这就好比是设计一个推荐系统，能一轮就决不使用两轮，最好你什么不问，我推送给你，这是不一样的。

机器之心：那小冰在理解和处理上下文时，主要是考虑了哪些因素？

李笛：这里面有这么几件事：

第一，我们的用户画像，能够基于上下文确定所产生的动机，这个用户画像是跨 Session（阶段）的，我们做了一些产品上面的尝试，比如说去记忆用户一些情感上的变化；

第二，在同一个 Session（阶段）里考量三个因素，第一个因素就是考虑前面的话题，而不是关键词，比如说咱们俩现在都在聊明星赵丽颖这个话题，那赵丽颖就是我们就是上下文的话题，相比较之前基于关键词的方式要好。基于话题的方式可以做到对上下文关联时覆盖长尾。我们现在大概有 36 个 Domain（域），而每个 Domain（域）里又有若干话题。