专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
目录
相关文章推荐
zartbot  ·  从AI落地的视角看看Infra的需求 ·  昨天  
zartbot  ·  从AI落地的视角看看Infra的需求 ·  昨天  
爱可可-爱生活  ·  【R1:一个为强化学习训练提供增强版GRPO ... ·  2 天前  
爱可可-爱生活  ·  人人能懂的AI前沿解读(6.7)网页链接 ... ·  2 天前  
爱可可-爱生活  ·  今日推介(第1794期):通过嫁接探索扩散T ... ·  2 天前  
51好读  ›  专栏  ›  机器之心

独家对话百度副总裁王海峰:NLP 的路还很长

机器之心  · 公众号  · AI  · 2017-03-03 12:33

正文

请到「今天看啥」查看全文



王海峰 :Query 理解是一个研究了很多年的方向。Query 理解分很多层,比如最基础的中文 query 理解,要做分词、命名实体识别、短语结构分析等等。在应用深度学习之前百度就达到了很好的效果,在这过程中也积累了非常丰富的用户数据。这些数据的积累又为后来应用深度学习提供了基础。


百度是世界上最早将深度学习技术应用在搜索引擎中的公司。深度学习本身具有很强的表示能力及大数据学习能力,基于百度积累的海量数据以及强大的计算资源,我们设计研发的针对性的新模型,展现出非常好的学习效果。


学习出来的是什么?更多是语义层面的匹配。用户在 query 中用的是一种表达方式,网页中对应的可能是另外一种。在用户的使用过程中,他的点击数据、行为数据隐藏着不同表达方式之间的关联,机器学习、深度学习就能学到这种关联。本质上,还是更好地利用更多的数据学到了更多东西。BOW(Bag-of-Words,词袋)就是对这些词的语义表示做简单的组合,我们用了更复杂的网络如 CNN、RNN,CNN 能更好自动捕捉一些局部结构信息,RNN及其变体在序列建模中更能体现句篇的长距离依赖特性,它们的表示能力、学习能力就会进一步增强。


神经网络不是近几年才出现的。20 多年前我读博士的时候,博士论文也用了 RNN,但那时候的数据量要小很多,计算机的计算能力甚至跟现在的手机都没法比。那时只能用很小的数据去跑模型,能跑出来、也有效果,但远远达不到今天的效果。深度学习很多基础理论也并不是近几年才产生的,但是近几年爆发式的在应用中取得了非常多的成果,大数据和强大的计算能力起到了至关重要的支撑作用。


机器之心:百度在前几年就上线了机器翻译系统,我们知道机器翻译系统可能用到神经网络、基于规则方法、基于实例的方法,还有基于统计的。这些不同的方法,如何在一个翻译系统中结合?


王海峰 :我们在世界上最早把深度学习应用到大规模线上翻译系统,2015 年 5 月系统正式上线。但上线的同时,并没有把原来的方法直接替换掉。我们发现多个模型融合使用的效果是最好的,因为深度学习有些问题解决的并不好,每一种方法都有它擅长的地方。


在应用深度学习之前,基于统计的、规则的、实例的方法我们都用了。比如规则方法,擅长抽象语言知识并显式地表示出来,比如语法知识、局部的规则等。


从一种语言到另一种语言并不是完全依靠规则的,如果有限的语法能覆盖所有语言现象,翻译这件事就会变得非常简单。现实中语言是非常复杂的,表示很灵活,很多时候并不是从语法演绎出来,而是约定俗成就这么说,这时候基于实例的方法就会效果更好、效率更高。就像我们学英语时,很多时候不需要去分析,一听到中文,相应的英文就会脱口而出。


统计机器翻译方法和神经网络机器翻译有一些相似的优点,同样可以从非常庞大的语料库中学习。因为它基于参数和模型,鲁棒性也更好。统计方法需要从词,到短语,到句子一层一层去做对齐、抽取、重排序等等;而神经网络翻译模型则可以是端到端的系统,用足够的语料去训练,就可以得到不错的结果。从这个角度看,机器翻译入门的门槛变低了,但想做到特别好仍然非常难。


这几种方法,我们现在更多是在结果级进行融合。


机器之心:我们现在的知识图谱包含 3 种:实体图谱、意图图谱、关注点图谱,我们为什么要做这些不同的知识图谱,它们的情况和应用是怎么样的?


王海峰 :做不同的图谱,其实是应用驱动的。基于实体的知识图谱,就是通常意义上的知识图谱。基本节点是实体,实体的属性、实体和实体之间的关系,一个基本的实体知识图谱就是这样。


为什么做关注点图谱?因为我们现在在做信息流,用户关注的不一定是实体。它可以是一个实体或者概念,比如关注人工智能、机器翻译;但也可以是一个事件,比如 AAAI 会议在旧金山召开,这不是实体或概念,而是一个事件,在实体图谱里是没有表示这样的事件的节点的。这时就需要关注点图谱。


意图图谱我们在内部也称为需求图谱,用户对话的过程中提出了一个需求,下一个需求会是什么?比如「阿拉斯加」,用户关注的是城市还是宠物?如果关注宠物那么接下来关注的是喂养、习性还是其它?这既不是一个实体,也不是一个事件关注点。所以每一种知识图谱都是由不同的应用驱动的。


机器之心:包括 UC、今日头条等等大家都在做信息流,百度在技术上有哪些不同之处?


王海峰 :信息流从基本原理上讲,一端是对用户的理解,一端是对内容的理解,然后对它们进行匹配。从这个最基本点看,大家都在做类似的事,但我们可以对内容、对用户理解得更好、更充分。这背后既有数据的优势,也有技术的优势。


数据方面,通过信息流中的用户行为可以分析用户的一些兴趣点,但不限于此,比如用户搜索的 query,明确表达了用户的需求,而这些需求与用户兴趣爱好或者个体属性等是相关的。再比如用户关注了某个贴吧,这是一个非常强的信号,意味着他对这个东西很感兴趣。


所以我们做信息流不是孤立的,而是基于百度整体的各种产品,综合起来会对用户有更好的理解。


另一方面是技术。百度在人工智能的方方面面都有着非常深厚的技术积累,我们会综合利用各种技术。刚才谈到不少深度学习技术模型在百度产品中已得到很多应用,而在真正的产品应用中,其它各种机器学习方法,比如 SVM 、CRF、GBDT 等也都会用。技术的选型,是基于对应用需求的充分理解及对数据的深入分析进行的。








请到「今天看啥」查看全文