专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
目录
相关文章推荐
机器学习研究组订阅  ·  陶哲轩再爆:一个月三破18年未解难题!Alp ... ·  昨天  
爱可可-爱生活  ·  【[40星]SalesforceAIRese ... ·  2 天前  
人工智能那点事  ·  日本女歌手滨崎步否认孩子生父是马斯克 ·  2 天前  
黄建同学  ·  //@karminski-牙医: ... ·  2 天前  
爱可可-爱生活  ·  【Hugging Face MCP ... ·  2 天前  
51好读  ›  专栏  ›  机器之心

Face++旷视科技首席科学家孙剑首次接受专访:计算机视觉亟待解决哪些问题?

机器之心  · 公众号  · AI  · 2017-02-07 12:39

正文

请到「今天看啥」查看全文



在神经网络研究的历史中,很长时间内大家不相信那么深的网络能够优化出来。做深度学习之前大家研究 SVM(Support Vector Machine,支持向量机),研究稀疏表示,很大程度上是线性问题。大家试图研究凸的(问题),非凸的还想办法转成凸的做,对于这么深的网络、这么复杂的事情、高度非线性又有这么多参数,数据又很少,很多人都不相信能把它优化出来。今天能够相当程度地解决也包含很多因素。残差学习是其中一个重要因素,但不是唯一的。


把大家研究出来的结论放在一起,才导致今天任意给一个深度网络都能很容易地训练出来,深度再也不是网络不收敛训练不好的问题,破除了以前的魔咒。


最后要说一下做出这个残差网络完全是团队(何凯明、张祥雨、任少卿和我)的集体智慧结晶,缺少任何一人都不敢说能走得到这一步,中间经历很多的失败和曲折。我深感能把我们 4 个不同技能的人凑在一起,打下一个「大怪兽」的幸运;和他们在一起忘我的研究过程是我研究生涯中最难忘的经历之一。


机器之心:在图像识别之外,残差网络还可以运用到其它领域吗?


孙剑:最近语音识别、自然语言处理都在用。它是一种思想,并不是一个局限于图像识别的一个方法。这个思想用在别的地方都管用,我们看到了非常多的例子,大公司、小公司都在用。



论文《Deep Residual Learning for Image Recognition》中,在 ImageNet 上使用残差网络优化后的效果比对图表


而且最先进的系统、最复杂的系统都在用这个思想。并不是简单的用残差网络这个方式做,比如语言处理中的一个环节想要做做深,原来两层就不行,现在可以做得很深。用残差学习或跳层连接做得很深,效果很好,训练也很容易。并不是说以前不能搭这么深,搭这么深结果更差,现在有自由度想搭多深搭多深。


当然也不是说越深越好,跟问题和数据都有关系。考虑复杂度和效果肯定是找折衷点,不过现在不受深度的约束了。


机器之心:那您还会继续残差网络的研究吗?


孙剑:这是我们的一个中间结果。我觉得残差网络是一方面,但是我们做研究希望找下一个大想法,当然结构可能融合了残差网络方法,因为它这个很好的思想并不是具体的一个网络。


后来有很多人开发各种网络,结构都不一样,但残差网络的思想是其中必不可少的部分。现在所有网络都是残差网络,重点已经不是加残差网络了,而是说在以加了它为基础的情况下,再去研究别的特性,把这个问题再深刻理解,怎么能够做得更好。举个例子,分类能做得好,但这个网络未必适合于检测、分割这样的问题。只有把问题理解更深入,才能设计出最适合特定问题的网络。


关于 ImageNet 测试与数据


机器之心:ImageNet 已经诞生了很长时间,现在用它的测试结果判断一个图像识别模型好不好用还可行么?或者,我们应该如何去判断一个图像识别的模型是优秀的?


孙剑:ImageNet 今天仍有它的价值。做新问题新的标注数据很少,还离不开这个数据集。它很通用,上面 pre-train 的模型肯定不是最优的,但是在只有很少数据的时候起到了很大作用。另外 ImageNet 做得很好,它的训练和测试之间也是非常一致的。它是诞生研究方法、新的思想的平台,包括我们做人脸识别,都是通过 ImageNet 继承来的思想和做法。


当然遵循游戏规则得到了冠军固然可贺,但主要还是看是否有可以通用的新方法或思想。随着深度网络的快速发展,ImageNet 1K 这个数据目前已经很容易出现严重的过拟合了,期待下一代的 ImageNet 出现。我们最近也在考虑如何设计更好的 ImageNet。


机器之心:李飞飞后来也做了图像与语言结合的 Visual Genome,您认为在数据集方面还有哪些值得去做的事?


孙剑:Visual Genome 这个数据集非常好,李飞飞她们付出了非常大的努力,我们也在用这个数据集。数据集中不只有图像一个层次,图像里面的物体、物体之间的关系都标出来了,包括动作关系、位置关系都有。

Visual Genome 的标注情况,详见其官网 Paper 部分







请到「今天看啥」查看全文