正文
在神经网络研究的历史中,很长时间内大家不相信那么深的网络能够优化出来。做深度学习之前大家研究 SVM(Support Vector Machine,支持向量机),研究稀疏表示,很大程度上是线性问题。大家试图研究凸的(问题),非凸的还想办法转成凸的做,对于这么深的网络、这么复杂的事情、高度非线性又有这么多参数,数据又很少,很多人都不相信能把它优化出来。今天能够相当程度地解决也包含很多因素。残差学习是其中一个重要因素,但不是唯一的。
把大家研究出来的结论放在一起,才导致今天任意给一个深度网络都能很容易地训练出来,深度再也不是网络不收敛训练不好的问题,破除了以前的魔咒。
最后要说一下做出这个残差网络完全是团队(何凯明、张祥雨、任少卿和我)的集体智慧结晶,缺少任何一人都不敢说能走得到这一步,中间经历很多的失败和曲折。我深感能把我们 4 个不同技能的人凑在一起,打下一个「大怪兽」的幸运;和他们在一起忘我的研究过程是我研究生涯中最难忘的经历之一。
机器之心:在图像识别之外,残差网络还可以运用到其它领域吗?
孙剑:最近语音识别、自然语言处理都在用。它是一种思想,并不是一个局限于图像识别的一个方法。这个思想用在别的地方都管用,我们看到了非常多的例子,大公司、小公司都在用。
论文《Deep Residual Learning for Image Recognition》中,在 ImageNet 上使用残差网络优化后的效果比对图表
而且最先进的系统、最复杂的系统都在用这个思想。并不是简单的用残差网络这个方式做,比如语言处理中的一个环节想要做做深,原来两层就不行,现在可以做得很深。用残差学习或跳层连接做得很深,效果很好,训练也很容易。并不是说以前不能搭这么深,搭这么深结果更差,现在有自由度想搭多深搭多深。
当然也不是说越深越好,跟问题和数据都有关系。考虑复杂度和效果肯定是找折衷点,不过现在不受深度的约束了。
机器之心:那您还会继续残差网络的研究吗?
孙剑:这是我们的一个中间结果。我觉得残差网络是一方面,但是我们做研究希望找下一个大想法,当然结构可能融合了残差网络方法,因为它这个很好的思想并不是具体的一个网络。
后来有很多人开发各种网络,结构都不一样,但残差网络的思想是其中必不可少的部分。现在所有网络都是残差网络,重点已经不是加残差网络了,而是说在以加了它为基础的情况下,再去研究别的特性,把这个问题再深刻理解,怎么能够做得更好。举个例子,分类能做得好,但这个网络未必适合于检测、分割这样的问题。只有把问题理解更深入,才能设计出最适合特定问题的网络。
关于 ImageNet 测试与数据
机器之心:ImageNet 已经诞生了很长时间,现在用它的测试结果判断一个图像识别模型好不好用还可行么?或者,我们应该如何去判断一个图像识别的模型是优秀的?
孙剑:ImageNet 今天仍有它的价值。做新问题新的标注数据很少,还离不开这个数据集。它很通用,上面 pre-train 的模型肯定不是最优的,但是在只有很少数据的时候起到了很大作用。另外 ImageNet 做得很好,它的训练和测试之间也是非常一致的。它是诞生研究方法、新的思想的平台,包括我们做人脸识别,都是通过 ImageNet 继承来的思想和做法。
当然遵循游戏规则得到了冠军固然可贺,但主要还是看是否有可以通用的新方法或思想。随着深度网络的快速发展,ImageNet 1K 这个数据目前已经很容易出现严重的过拟合了,期待下一代的 ImageNet 出现。我们最近也在考虑如何设计更好的 ImageNet。
机器之心:李飞飞后来也做了图像与语言结合的 Visual Genome,您认为在数据集方面还有哪些值得去做的事?
孙剑:Visual Genome 这个数据集非常好,李飞飞她们付出了非常大的努力,我们也在用这个数据集。数据集中不只有图像一个层次,图像里面的物体、物体之间的关系都标出来了,包括动作关系、位置关系都有。
Visual Genome 的标注情况,详见其官网 Paper 部分