正文
我们播一段笑声,你们能判断这是同一个人吗?这是非常难的。并且我们这个题目做完之后,还问了他们节目组的录音,他们就是在笑的时候,一定要跟平常很不一样,有那种喊出来、歇斯底里的笑声,这其实是难度非常非常大的,这个题目当时其实是没有做对。你们可以听一下错误答案,错误答案跟题目听起来更像同一个人的声音,跟第一个笑声是很难判断的。百度在《最强大脑》节目前精度还没有办法做的像人脸识别那么高,因此在当时的情况下我们还是错掉了。这个难度其实是非常高的,现在百度这块做的还是不够,因此我们也会继续的投入很大的力量把这块做好。
解释一下,为什么声纹识突然变得这么重要。第一点是现在身份认证这个场景是非常重要的,包括在银行,包括在很多很多的场景下,身份认证是非常重要,但是人脸识别已经是一种非常重要的方法了。像美国身份认证的标准,就是希望你用两种不同的方法同时认证,认证对了才算过了,他们的一个系统,因此像百度我们已经把人脸做的非常好。因此我们也希望在声纹上能够有一些非常大的突破,把声纹希望做的跟人脸类似或者差不多的级别,对身份认证帮助是非常大。
第二点百度非常重视,是我们所谓的基于 AI 的交互。比如是鼠标键盘,到最近是手机上的触摸屏,我们更希望下一代是基于语音图像或者 AI 非常自然的交互,特别是语音的。你们如果有关注百度,也知道百度投入非常大的力量,在做 Duer 的操作系统,就叫 OS,我们内部把它叫 OS,因为像这些基于语音质量交互的情况,语音已经是一个存在的信号,如果我们能利用那个信号的话,能够识别那个人是谁,说话的人是谁,这是非常非常有用的。因此在这块我们后续也在继续投入,我们技术上已经取得了一些突破,最后我们希望把声纹做的跟人脸识别那样高的精度。
人脸识别
下面我来说一下人脸识别,我今天着重要说的是几个,一个是跨年龄的人脸识别,一个跨代的人脸识别,在这个领域里面都算是非常挑战的,但是百度已经把它做的非常非常好。但是后面的技术其实都是基于我们对正常人的人脸识别的能力,上面的一些扩展,我们最关键是下面的,对普通情况的人脸识别已经能做得非常非常好,能很顺的把那个技术用到一些相对来说比较特殊的场景下。不知道在座的有多少位同学还记得,像这个是一个小孩的照片,这里面哪一个对应这个小孩的照片,如果没看过或者没记得的同学,你们觉得你们能找出来吗?
最后一个是对的,整体来说难度还是非常大的,这里面你们大家注意看,这里面还有一个双胞胎,双胞胎确实是难度非常大,也是在误差范围里面,但是我们比较幸运的还是猜对了,不能肯定我们把双方做的百分之百准确,但是有一定的概率还是能把它做准,这个最后还是把它做准了。刚才台上只有 20 个人,你可以看一下,难度最大的是这个题目,其实你要看 30 张这样的照片,这里面其实还挺难找得,比如我把这个放成一张,大家能找出这个是哪个吗?其实这些难度还是挺大的,正常的人,像这个还是非常非常难的,找到正确答案,大家不信的话,自己可以试一试,比如说家里面找一些照片或者朋友里面找一些照片,难度确实非常大。我们在做这个节目之前,大概测过,类似这样的一张照片,人去找,大概 20% 左右的准确率,我们有一个群,我们说把同学放进来,同学贴一张照片,你们帮我找找看,这张照片里哪一个是我,其实这个准确率非常低,人来做的话准确率是非常低的。
我们在大概 1 月初做了第一期的节目,后面我们希望把这个技术也能够用在一些实际的,对社会非常有益的场景。我们后来跟宝贝回家合作,他们大概给了我们 6 万条的信息,其实大概有一半左右是成人的照片。宝贝回家的平台是这样的,有父母小孩丢了,有小孩小时候的照片,比如像这样的一张照片,这是他小时候 5 岁的照片,这个小孩长大也有他自己的照片,这个小孩很聪明,他有一个 8 岁时候的照片或者更近期的照片,两边有两三万的照片在宝贝回家的平台上。我们的办法就是希望帮他们做对比,因为这是跨年龄的,其实这两张人脸是长得非常不一样的,不一样到什么程度,我相信这个小孩上传了这个照片之后,应该也会到这里面的库,看看有没有跟他长的比较像的照片,但这种情况都没有把对方给找到。我们试之前也有一些做人脸识别的东西,我们其实找到不止这个,还有一些也在验证中,我们也找到另外一个,其实他们已经对接上了,只是平台没有把照片拿下来,但是我们也找到了,这是原来根本没有人发现,我们是发现了,通过 DNA 的验证。
我稍微非常简要地说一下,我们经过了《最强大脑》的比赛,着重讲的跨年龄跟跨代的人脸识别,我可以很自信地说,在这一块现在没有人能做的比我们好,像我刚才也说核心的核心,还是我们的人脸识别基础技术做的非常好。大家也都知道人脸识别基本上是有两个技术,一个是检测,还有一个是识别,检测给一张照片我们能看人脸是在哪里,同时还有把脸上的一些关键点找出来比如嘴巴、眼睛、鼻子。这是检测,检测完之后这个人到底是谁,还有通常的人物验证,比如说验证这两个人是不是同一个人,这是不是不同的人。像百度其实在这上面起步做的非常早,2014 年跟 2015 年的时候,如果大家往回看,现在当然这两个数据都太小了,我们根本也不会去做,因为 2016 年之后没有再去做过这两个数据,因为太小了。但是 2014 跟 2015 年的时候,我们在 FDDB 跟 LFW 上,两年时间没有一家超过我们,在这之前技术有了非常非常好的进步,LFW 再往前做意义也没那么大,一万多张的照片,非常小的数据级。2015 年年底的时候,我们内部非常针对性的,针对我们要解决的问题,人脸识别,我们搭建了非常大的测试级,就训练加测试的集合,我们也是把一些非常简单的数据给它去掉,我们自然觉得是相对偏难的测试级。
当时这个测试级是 8%,我们很多时候讲是深度测试级,可能很多时候可以看 99.7%,这些针对都是 LFW,我们当时在那种测试底下能做到那么高的精度,如果把一些很容易的去掉,难的留下来,这是我们真正要解决的问题。因此当时测试级定的时候,我们拿了过去所有能做的最好的算法,在这个测试级上只能做到 92%。大概在去年百度世界大会,我们在数据跟算法上都进行非常大的迭代跟,8% 降到 2% 以下,这是非常大的提高,为什么呢?因为我们以前做一些算法,20%、30%、40% 就算是很高了,我们基本上是降了大概接近 3 倍,非常大的除以 3 了。其实到现在,在这个上面是低于 1% 的,因此的话几乎是 10 倍左右的提高,这个其实是非常大的提高,因为之前的系统已经是一种非常好的系统,不是很水的系统,我们在这个上面再有 10 倍的提高,并且这个测试级因为它是非常大的测试级,数据的话是非常非常难,因此这个是非常实在的,也就是因为这些,才最后看到《最强大脑》。