专栏名称: 人工智能头条
专注人工智能技术前沿、实战技巧及大牛心得。
目录
相关文章推荐
量子位  ·  让ChatGPT连读“A”,直接崩溃到念广告 ... ·  14 小时前  
宝玉xp  ·  //@程序员邹欣:📖+💻//@刘未鹏po ... ·  昨天  
爱可可-爱生活  ·  【[357星]ROLL:阿里巴巴推出的高效强 ... ·  2 天前  
爱可可-爱生活  ·  晚安~ #晚安# -20250530222313 ·  3 天前  
51好读  ›  专栏  ›  人工智能头条

阿里智能对话交互实践及范式思考

人工智能头条  · 公众号  · AI  · 2017-07-12 08:06

正文

请到「今天看啥」查看全文


下面介绍下阿里巴巴在智能对话交互方向的进展和实践。先看对话交互逻辑的概况,传统的对话交互大概会分以下几个模块,从云识别把语言转成文字,语言理解是把用户说的文字转化成一种结构化的表示,对话管理是根据刚才那些结果来决定采取什么样的合作。在语言设置这一块就是根据action生成一句话,通过一种比较自然的方式把它读出来。


对话系统架构简图


我认为现在人机交互和传统的人机交互一个主要不同点就在于数据和服务。随着互联网的发展,数据和服务越来越丰富,那人机交互的目的是什么?归根到底还是想获取互联网的信息和各种各样的服务。

语言理解简单来说就是把用户说的话,转换为一种结构化的语义表示,从方法上会分成两个模块:意图的判定和属性的抽取。

比如用户说:“我要买一张下周去上海的飞机票,国航的“。第一个模块就要返回理解,用户的意图是要买飞机票,第二,使用抽取模块,要把这些关键的信息出处理出来,出发时间、目的地、航空公司,从而得到一个比较完整的结构化的表示。

自然语言理解


那么,人机对话中的语言理解面临哪些挑战呢?我总结为四类:

  • 表达的多样性。 同样一个意图,不同的用户有不同的表达方式。那对于机器来说,虽然表达方式不一样,但是意图是一样的,机器要能够理解这件事情。

  • 语言的歧义性。 比如说,“我要去拉萨“,它是一首歌的名字。当用户说:“我要去拉萨”的时候,他也可能是听歌,也可能是买一张去拉萨的机票,也可能是买火车票,或者旅游。

  • 语言理解的混乱性 ,因为用户说话过程当中,比较自然随意,语言理解要能够捕获住或者理解用户的意图。

  • 上下文的理解。 这是人机对话交互一个非常大的不同,它的理解要基于上下文。


在语言理解这一块,我们把用户语言的意图理解抽象为一个分类问题,之后,就有一套相对标准的方法解决,比如CNN神经网络、SVM分类器等等。阿里巴巴现在就是采用CNN神经网络方法,并在词的表示层面做了针对性的改进。机器要理解用户的话的意思,背后一定要依赖于大量的知识。比如说,“大王叫我来巡山”是一首歌的名字,“爱探险的朵拉”是一个视频,互联网上百万量级这样开放领域的实体知识,并且每天都会有新的歌曲/视频出现,如果没有这样大量的知识,机器是很难真的理解用户的意图的。那么,在词的语义表示这块,除了word embedding,还引入了基于知识的语义表示向量。

刚才提到了,用户说的话实际上是比较随意和自然的,那怎么样让这个模型有比较好的鲁棒性来解决口语的随意性问题呢?我们主要针对用户标注的数据,通过算法自动加一些噪音,加噪之后(当然前提是不改变语义),基于这样的数据再training模型,这样处理之后模型就会有比较好的鲁棒性了。

第二个模块是属性抽取,在这一块,我们把它抽象为一个序列标注问题。这个问题,神经网络也有比较成型的方法,我们现在也是用这种双向LSTM,在上面有一层CRF解码器,取得了不错的效果,但是这背后更大的功夫来自于对数据的分析和加工。







请到「今天看啥」查看全文