专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
目录
相关文章推荐
黄建同学  ·  10年?//@碧霄问鼎:人类目前唯一还存在的 ... ·  17 小时前  
爱可可-爱生活  ·  晚安~ #晚安# -20250618224148 ·  昨天  
黄建同学  ·  看看日本的人形机器人在做什么↓Foodly ... ·  2 天前  
51好读  ›  专栏  ›  新智元

【ImageNet最后的冠军】颜水成:像素级标注数据集将引领计算机视觉下一个时代

新智元  · 公众号  · AI  · 2017-08-17 09:45

正文

请到「今天看啥」查看全文



以下是颜水成采访实录,由编辑整理,有删减和调整。


ImageNet确实可以终结了,计算机视觉的未来属于多标签、像素级、语义级


“图像的竞赛还是像素级别的分类更好。如果像素级分割做好了,无论做任何类型图像理解或语义理解的问题都好办了。”

新智元 :今年之后ImageNet的ILSVRC挑战赛“退出江湖”,是不是表明分类检测任务已经取得相对完善的表现?

颜水成 :计算机视觉竞赛有很长的历史,PASCAL VOC进行了八年,ImageNet也是八年。每个比赛都承载了大家对技术发展的期望,同时大家也会逐渐发现这些数据库的局限性。

2005-2012年,PASCAL VOC非常火,但是只有二十类,2010年开始的ImageNet有一千类,于是研究者逐步转向ImageNet。

ImageNet数据库现在最大的挑战是,在分类中每一个图像中只标注了一个主要的物体,所以ImageNet主要是做单个物体的分类和定位。这不符合现实世界图像的分布特点,存在局限性,这是ImageNet结束比赛的一个重要原因。 但是ILSVRC比赛里面的物体检测这个任务,本身还没有终结,后面还会也应该继续下去。

我们需要像某些多标签的多媒体数据集那样的数据集,更符合真实图像的情况。

新智元 :多label的数据集,现在有哪些?

颜水成 :比较大的有来自新加坡国立大学的NUS-WIDE。但是label也不多,只有81个。

新智元 :ImageNet为什么是单label?

颜水成:工作量的问题,多label意味着每个图像对多个label要做校验。但是单label只需要判断yes or no。

假如是个一千个label的多标签数据集,你的校验就是一千倍,否则依然会存在错误。

新智元 :未来计算机视觉的竞赛还应该往哪方面发展呢?

颜水成 :在我个人看来,图像的竞赛还是像素级别的分类更好。如果图像分割做好了,无论做任何类型图像理解或语义理解的问题都好办了。

ImageNet去年有Scene Parsing任务,但遗憾的是今年没继续。如果将来把图像分割作为核心任务,再做任何其它任务就好办多了。

真正好的分割是全景的分割。所谓全景分割,就是对每一个像素都有一个标注。这样比ImageNet检测和分类的任务难很多,标注量也非常大。

希望在合适的时间点有大公司或NPO来做这样的事情。现在有新的数据集做语义级别分析或者局部关联分析,但这些数据库存在内在的局限性,最终还是要做像素级别。


DPN摘下最后的“皇冠”,本质是ResNet和DenseNet思想的结合


“ResNet可以解释成是DenseNet的一个特例。但是DPN还暂时无法被解释成是DenseNet的特例。原因是...”


新智元 :本届比赛中,你所在团队使用了DPN技术,这种技术除了用于像ImageNet中“图像识别”、“图像检测”和“图像分割”这三大任务,是否适合用其他任务或者应用上?

颜水成 :计算机视觉领域的基础模型至关重要,如AlexNet, NIN, GoogleNet, VGG, ResNet, 以及这次的DPN。不仅仅限于这三大任务,只要计算机视觉相关的并且用深度学习的都可受益于这些基础模型。

新智元 :论文中说ResNet是DenseNet的一个特例,而DPN结合了两种模型的思想,DPN是否也是一种DenseNet的特例呢?







请到「今天看啥」查看全文