正文
Learning to Disambiguate by Asking Discriminative Questions.
Yining Li, Chen Huang, Xiaoou Tang, Chen Change Loy.
这篇论文探索了一个新的方向,即透过提出有鉴别力的问题来区分不同的视觉实体。比如当你需要区分一只白色的狗和一只黑色的狗的时候,可以提出关于颜色的问题。为了支持这个方向的探索,作者在这项工作中建立了一个新的数据集,里面含有了超过一万组包含成对图像与多个相关问题的样本;并且提出了一种新型的弱监督训练方法,可以在缺乏细致标注的条件下,同时学习到一个具有区分度的问题生成器,以及能提供准确答案的鉴别模型。
Identity-Aware Textual-Visual Matching with Latent Co-attention.
Shuang Li, Tong Xiao, Hongsheng Li, Wei Yang, Xiaogang Wang.
特征匹配是跨模态学习的核心环节。这篇论文提出了一个新的文本与视觉特征匹配的框架。这个框架由两个阶段组成。第一阶段能迅速排除明显错误的配对,并为第二阶段的训练提供效度更高的训练样本。第二阶段通过一个新的关联注意力模型(co-attention model),把文本中的单词关联到图像中的特定区域。在三个公开数据集上(CUHK-PEDES, CUB, Flowers),本文提出的方法都显著超过现行的主流方法。
视频分析:让计算机看懂视频
虽然深度学习在图像分析中取得了巨大的成功,它在视频的理解与分析中的应用还有很长的路要走。相比于图像,视频数据具有更大的数据量以及更丰富的结构,因而也为视觉分析技术提出了更高水平的挑战。商汤科技在数年前就开始了把深度学习用于视频分析与理解的探索,提出了包括 Temporal Segmental Networks (TSN) 在内的多种有很大影响并被广泛应用的视频分析架构,并在 ActivityNet 2016 取得了冠军。在 2017 年,商汤科技以及相关实验室继续把这个方向的探索推向纵深,并在 ICCV 2017 发表了两项重量级的工作,包括一篇 Oral。
RPAN: An End-To-End Recurrent Pose-Attention Network for Action Recognition in Videos. (Oral)
Wenbin Du; Yali Wang; Yu Qiao.
通常的视频分析模型大部分是基于 video-level 的类别进行监督学习的,这种方法的局限是难以学习到复杂的运动结构。这篇论文另辟蹊径,着力于动态人体的建模,并提出了一个新型的可以端对端训练的深度网络架构 Recurrent Pose Attention Network (RPAN)。该架构不仅可以自适应地整合人体运动姿态的特征,还能很好地学习其时空演化结构。这项工作一方面为视频动作理解提供了新的方法,另一方面作为副产品也获得了一个不错的粗粒度姿态估计的模型。