正文
数据、算法和计算平台是基础。感知层对应人的视觉、听觉,这些能力是直接感知外界。认知层对应的是人类区别于其他生物特有的,比如人的语言能力、人类对知识的总结、理解、提炼、运用等等,以及对人的理解。AI 的开放平台不仅支持百度内部的应用还支持所有的合作伙伴,现已开放了 60 多个能力,在公司内部,每天大概有几千亿的调用量,而在外部也有数以亿计的调用。在此基础上,百度希望跟所有各行各业的合作伙伴一起打造技术的平台,形成良性循环的生态,从而生长出各种各样的创新应用。
百度从做互联网 To C(针对消费者)的产品到开始做大量支持 To B(面向企业服务)的应用。这些都依赖于人工智能技术布局的实现。下面将对每层技术布局的关键技术展开说明。
现在每一个人每一天会产生非常多的数据,如个人的行为、生理状态的变化,如果要监测、记录的话,都有非常庞大的数据。况且,每一个人每天都在跟互联网打交道,或者是自己建网站,或者向网上贡献数据,甚至在使用互联网过程中,也会产生很多数据。一定程度上,互联网已经成为整个客观世界的镜像。所以,掌握好、利用好、分析好这些互联网数据,在很大程度上也是对客观世界很重要的刻画和理解。
总体上,大数据技术分为几个方面,比如数据的采集、提炼以及应用。如果对一个零售商店数据里的用户进行建模,某一个用户可能是白领,另一个是主妇,这样的行业数据经过分析就可以帮助商户更好地进行营销行为。另一方面,百度基础的计算载体是数据中心,有 20 多个大型的数据中心,不只是在中国,在世界各地都设立了大数据中心,也有国内最大的 GPU 集群,有非常强的带宽和吞吐能力,还有像集装箱一样,模块化的计算中心。
语音技术的突破有很多方向,如识别、合成和唤醒,这是我们现在比较看重的,因为市场应用的需求很大。比如语音识别,已经达到 97% 以上的准确率。现在随着人工智能应用的深入,在家居场景、车载场景等等,越来越多的语音识别不是对着麦克风说,而是要有一定距离,这就涉及到远场的语音识别。这与现在手机上的麦克风不一样,首先会有定位,还有一系列新的技术待解决。合成想做得非常好,特别自然、流畅,而且可以是个性化的,包括把人的情绪变化等都带进去,就变得非常难。
这里不只是语音和声学信号处理问题,同时涉及到对语言的理解、对人的理解,这样才能做出有情绪、个性化的合成。唤醒,是需要设备的时候就叫一声,它就知道你要跟它说话,比如家居场景的一个智能音箱或者智能电视,这时候就需要唤醒技术。唤醒技术的困难在于我们要控制误唤醒,比如在家里放一个智能音箱,如果不叫它的时候,忽然之间它自己就跳起来了,或者睡觉的时候,有点外界噪音,它就忽然跳起来,体验会很差。所以,控制住误唤醒很重要也很有挑战。
图像方面,人脸识别是计算机视觉的一个重要方向。人脸分为静态和动态。静态,如一张图片,检测里面有没有人脸,或者有两张照片,比对一下两处出现的是不是同一个人,这方面的准确率已经很高了。而识别动态图像的时候更复杂一点,比如有一段视频,首先要定位这些人脸,而这里会产生很多应用,比如在很长的视频流里找到一个人。
另外,我们可以对图像进行识别匹配,做语义的标注,粒度很细,如一幅图里很具体地找到其中一个部分是什么,这里可以做很多细粒度的图像识别。OCR 是图像识别里相对具体的方向,如清华也有 OCR 方向做得非常好的老师和课题组。现在 OCR 技术不仅可以扫描书,更可以识别一个表格或者一个很复杂的结构,如发票,不但把里面的文字识别出来,还可以把一个区域识别出来的文字结构化,整体上会做很多定制化的识别。