专栏名称: AI前线

我们专注大数据和机器学习，关注前沿技术和业界实践。每天发布高质量文章，技术案例等原创干货源源不断。同时有四千人的社群微课堂，每周一次业界大牛技术分享，也希望你能从这里分享前沿技术，交流深度思考。

从百度人工智能战略布局看AI架构

AI前线 · 公众号 · 大数据 · 2017-09-20 19:30

正文

请到「今天看啥」查看全文

数据、算法和计算平台是基础。感知层对应人的视觉、听觉，这些能力是直接感知外界。认知层对应的是人类区别于其他生物特有的，比如人的语言能力、人类对知识的总结、理解、提炼、运用等等，以及对人的理解。AI 的开放平台不仅支持百度内部的应用还支持所有的合作伙伴，现已开放了 60 多个能力，在公司内部，每天大概有几千亿的调用量，而在外部也有数以亿计的调用。在此基础上，百度希望跟所有各行各业的合作伙伴一起打造技术的平台，形成良性循环的生态，从而生长出各种各样的创新应用。

百度从做互联网 To C（针对消费者）的产品到开始做大量支持 To B（面向企业服务）的应用。这些都依赖于人工智能技术布局的实现。下面将对每层技术布局的关键技术展开说明。

基础层：大数据、算法和大计算

现在每一个人每一天会产生非常多的数据，如个人的行为、生理状态的变化，如果要监测、记录的话，都有非常庞大的数据。况且，每一个人每天都在跟互联网打交道，或者是自己建网站，或者向网上贡献数据，甚至在使用互联网过程中，也会产生很多数据。一定程度上，互联网已经成为整个客观世界的镜像。所以，掌握好、利用好、分析好这些互联网数据，在很大程度上也是对客观世界很重要的刻画和理解。

总体上，大数据技术分为几个方面，比如数据的采集、提炼以及应用。如果对一个零售商店数据里的用户进行建模，某一个用户可能是白领，另一个是主妇，这样的行业数据经过分析就可以帮助商户更好地进行营销行为。另一方面，百度基础的计算载体是数据中心，有 20 多个大型的数据中心，不只是在中国，在世界各地都设立了大数据中心，也有国内最大的 GPU 集群，有非常强的带宽和吞吐能力，还有像集装箱一样，模块化的计算中心。

感知层：语音、图像、视频、AR/VR

语音技术的突破有很多方向，如识别、合成和唤醒，这是我们现在比较看重的，因为市场应用的需求很大。比如语音识别，已经达到 97% 以上的准确率。现在随着人工智能应用的深入，在家居场景、车载场景等等，越来越多的语音识别不是对着麦克风说，而是要有一定距离，这就涉及到远场的语音识别。这与现在手机上的麦克风不一样，首先会有定位，还有一系列新的技术待解决。合成想做得非常好，特别自然、流畅，而且可以是个性化的，包括把人的情绪变化等都带进去，就变得非常难。

这里不只是语音和声学信号处理问题，同时涉及到对语言的理解、对人的理解，这样才能做出有情绪、个性化的合成。唤醒，是需要设备的时候就叫一声，它就知道你要跟它说话，比如家居场景的一个智能音箱或者智能电视，这时候就需要唤醒技术。唤醒技术的困难在于我们要控制误唤醒，比如在家里放一个智能音箱，如果不叫它的时候，忽然之间它自己就跳起来了，或者睡觉的时候，有点外界噪音，它就忽然跳起来，体验会很差。所以，控制住误唤醒很重要也很有挑战。

图像方面，人脸识别是计算机视觉的一个重要方向。人脸分为静态和动态。静态，如一张图片，检测里面有没有人脸，或者有两张照片，比对一下两处出现的是不是同一个人，这方面的准确率已经很高了。而识别动态图像的时候更复杂一点，比如有一段视频，首先要定位这些人脸，而这里会产生很多应用，比如在很长的视频流里找到一个人。

另外，我们可以对图像进行识别匹配，做语义的标注，粒度很细，如一幅图里很具体地找到其中一个部分是什么，这里可以做很多细粒度的图像识别。OCR 是图像识别里相对具体的方向，如清华也有 OCR 方向做得非常好的老师和课题组。现在 OCR 技术不仅可以扫描书，更可以识别一个表格或者一个很复杂的结构，如发票，不但把里面的文字识别出来，还可以把一个区域识别出来的文字结构化，整体上会做很多定制化的识别。