专栏名称: AI科技评论
「AI科技评论」是国内顶尖人工智能媒体和产业服务平台,专注全球 AI 业界、学术和开发三大方向的深度报道。
目录
相关文章推荐
爱可可-爱生活  ·  晚安~ #晚安# -20250607232551 ·  16 小时前  
爱可可-爱生活  ·  【从一张漫画看三种项目开发方法的差别】#人工 ... ·  21 小时前  
爱可可-爱生活  ·  人人能懂的AI前沿解读(6.7)网页链接 ... ·  昨天  
爱可可-爱生活  ·  今日推介(第1793期):纠正稀疏注意力、通 ... ·  2 天前  
51好读  ›  专栏  ›  AI科技评论

大会 | 从 20 篇ICCV 2017录用论文,看商汤科技四大攻坚领域|ICCV 2017

AI科技评论  · 公众号  · AI  · 2017-10-26 23:36

正文

请到「今天看啥」查看全文


Learning to Disambiguate by Asking Discriminative Questions.

Yining Li, Chen Huang, Xiaoou Tang, Chen Change Loy.

这篇论文探索了一个新的方向,即透过提出有鉴别力的问题来区分不同的视觉实体。比如当你需要区分一只白色的狗和一只黑色的狗的时候,可以提出关于颜色的问题。为了支持这个方向的探索,作者在这项工作中建立了一个新的数据集,里面含有了超过一万组包含成对图像与多个相关问题的样本;并且提出了一种新型的弱监督训练方法,可以在缺乏细致标注的条件下,同时学习到一个具有区分度的问题生成器,以及能提供准确答案的鉴别模型。

Identity-Aware Textual-Visual Matching with Latent Co-attention.

Shuang Li, Tong Xiao, Hongsheng Li, Wei Yang, Xiaogang Wang.

特征匹配是跨模态学习的核心环节。这篇论文提出了一个新的文本与视觉特征匹配的框架。这个框架由两个阶段组成。第一阶段能迅速排除明显错误的配对,并为第二阶段的训练提供效度更高的训练样本。第二阶段通过一个新的关联注意力模型(co-attention model),把文本中的单词关联到图像中的特定区域。在三个公开数据集上(CUHK-PEDES, CUB, Flowers),本文提出的方法都显著超过现行的主流方法。

视频分析:让计算机看懂视频

虽然深度学习在图像分析中取得了巨大的成功,它在视频的理解与分析中的应用还有很长的路要走。相比于图像,视频数据具有更大的数据量以及更丰富的结构,因而也为视觉分析技术提出了更高水平的挑战。商汤科技在数年前就开始了把深度学习用于视频分析与理解的探索,提出了包括 Temporal Segmental Networks (TSN) 在内的多种有很大影响并被广泛应用的视频分析架构,并在 ActivityNet 2016 取得了冠军。在 2017 年,商汤科技以及相关实验室继续把这个方向的探索推向纵深,并在 ICCV 2017 发表了两项重量级的工作,包括一篇 Oral。

RPAN: An End-To-End Recurrent Pose-Attention Network for Action Recognition in Videos. (Oral)

Wenbin Du; Yali Wang; Yu Qiao.

通常的视频分析模型大部分是基于 video-level 的类别进行监督学习的,这种方法的局限是难以学习到复杂的运动结构。这篇论文另辟蹊径,着力于动态人体的建模,并提出了一个新型的可以端对端训练的深度网络架构 Recurrent Pose Attention Network (RPAN)。该架构不仅可以自适应地整合人体运动姿态的特征,还能很好地学习其时空演化结构。这项工作一方面为视频动作理解提供了新的方法,另一方面作为副产品也获得了一个不错的粗粒度姿态估计的模型。







请到「今天看啥」查看全文