Face++旷视科技首席科学家孙剑首次接受专访：计算机视觉亟待解决哪些问题？

机器之心 · 公众号 · AI · 2017-02-07 12:39

正文

请到「今天看啥」查看全文

在神经网络研究的历史中，很长时间内大家不相信那么深的网络能够优化出来。做深度学习之前大家研究 SVM（Support Vector Machine，支持向量机），研究稀疏表示，很大程度上是线性问题。大家试图研究凸的（问题），非凸的还想办法转成凸的做，对于这么深的网络、这么复杂的事情、高度非线性又有这么多参数，数据又很少，很多人都不相信能把它优化出来。今天能够相当程度地解决也包含很多因素。残差学习是其中一个重要因素，但不是唯一的。

把大家研究出来的结论放在一起，才导致今天任意给一个深度网络都能很容易地训练出来，深度再也不是网络不收敛训练不好的问题，破除了以前的魔咒。

最后要说一下做出这个残差网络完全是团队（何凯明、张祥雨、任少卿和我）的集体智慧结晶，缺少任何一人都不敢说能走得到这一步，中间经历很多的失败和曲折。我深感能把我们 4 个不同技能的人凑在一起，打下一个「大怪兽」的幸运；和他们在一起忘我的研究过程是我研究生涯中最难忘的经历之一。

机器之心：在图像识别之外，残差网络还可以运用到其它领域吗？

孙剑：最近语音识别、自然语言处理都在用。它是一种思想，并不是一个局限于图像识别的一个方法。这个思想用在别的地方都管用，我们看到了非常多的例子，大公司、小公司都在用。

论文《Deep Residual Learning for Image Recognition》中，在 ImageNet 上使用残差网络优化后的效果比对图表

而且最先进的系统、最复杂的系统都在用这个思想。并不是简单的用残差网络这个方式做，比如语言处理中的一个环节想要做做深，原来两层就不行，现在可以做得很深。用残差学习或跳层连接做得很深，效果很好，训练也很容易。并不是说以前不能搭这么深，搭这么深结果更差，现在有自由度想搭多深搭多深。

当然也不是说越深越好，跟问题和数据都有关系。考虑复杂度和效果肯定是找折衷点，不过现在不受深度的约束了。

机器之心：那您还会继续残差网络的研究吗？

孙剑：这是我们的一个中间结果。我觉得残差网络是一方面，但是我们做研究希望找下一个大想法，当然结构可能融合了残差网络方法，因为它这个很好的思想并不是具体的一个网络。

后来有很多人开发各种网络，结构都不一样，但残差网络的思想是其中必不可少的部分。现在所有网络都是残差网络，重点已经不是加残差网络了，而是说在以加了它为基础的情况下，再去研究别的特性，把这个问题再深刻理解，怎么能够做得更好。举个例子，分类能做得好，但这个网络未必适合于检测、分割这样的问题。只有把问题理解更深入，才能设计出最适合特定问题的网络。

关于 ImageNet 测试与数据

机器之心：ImageNet 已经诞生了很长时间，现在用它的测试结果判断一个图像识别模型好不好用还可行么？或者，我们应该如何去判断一个图像识别的模型是优秀的？

孙剑：ImageNet 今天仍有它的价值。做新问题新的标注数据很少，还离不开这个数据集。它很通用，上面 pre-train 的模型肯定不是最优的，但是在只有很少数据的时候起到了很大作用。另外 ImageNet 做得很好，它的训练和测试之间也是非常一致的。它是诞生研究方法、新的思想的平台，包括我们做人脸识别，都是通过 ImageNet 继承来的思想和做法。

当然遵循游戏规则得到了冠军固然可贺，但主要还是看是否有可以通用的新方法或思想。随着深度网络的快速发展，ImageNet 1K 这个数据目前已经很容易出现严重的过拟合了，期待下一代的 ImageNet 出现。我们最近也在考虑如何设计更好的 ImageNet。

机器之心：李飞飞后来也做了图像与语言结合的 Visual Genome，您认为在数据集方面还有哪些值得去做的事？

孙剑：Visual Genome 这个数据集非常好，李飞飞她们付出了非常大的努力，我们也在用这个数据集。数据集中不只有图像一个层次，图像里面的物体、物体之间的关系都标出来了，包括动作关系、位置关系都有。

Visual Genome 的标注情况，详见其官网 Paper 部分