一文看懂如何将深度学习应用于视频动作识别

AI前线 · 掘金 · AI · 2018-07-16 06:36

正文

请到「今天看啥」查看全文

图 2: 上图为自由泳。下图为蛙泳。捕捉时间性运动是区分这两种看起来很相似的情况的关键。另外，还需要注意，相机角度在自由泳视频中段如何突然改变。

3. 设计分类架构 设计能够捕捉时空信息的架构涉及评估多个不同寻常且代价很大的选项。例如，一些可选的策略有：

一个同时捕捉时空信息的网络 vs 两个网络，一个捕捉时间信息，一个捕捉空间信息。
跨多个剪辑的融合预测
端到端训练 vs 分别进行特征提取和分类

4. 没有标准的基准 长期以来，UCF101 和 Sports1M 都是最流行的基准数据集。探索基于 Sports1M 的合理架构代价非常大。对于 UCF101，尽管帧数与 ImageNet 相当，但是视频之间的空间高关联性让训练中的实际多样性小得多。此外，考虑到相似的主题（运动）在数据集、基准框架向其它任务的推广方面仍然是一个问题。这点最近已经随着 Kinetics 数据集的引入而被解决 [2]。

UCF-101 插图示例。来源（http://www.thumos.info/）

这里必须一提的是，三维医疗图像异常检测并不涉及这里提到的所有挑战。动作识别与医疗图像的区别如下：

就医疗成像来说，时间上下文可能不如动作识别那样重要。例如，头部大出血 CT 扫描检测应该较少涉及跨片段的时间上下文。颅内大出血能够从单个片段中检测出来。与之相反的是，从胸部 CT 扫描中进行肺结节检测会涉及捕捉时间上下文，因为结节与支气管和血管在二维扫描中看起来都像圆形物体。只有捕捉三维上下文，球形物体的结节才能与圆柱形物体的血管区分开。

就动作识别来说，大部分研究理念都借助于使用预训练的二维卷积神经网络作为起点来获取更好的收敛结果。就医疗图像来说，没有这样可用的预训练网络。

解决方案概览

在深度学习之前，大部分用于动作识别的传统 CV（计算机视觉，computer vision）算法变体可以分为以下 3 个广义步骤：

描述视频区的局部高维可视化特征是提取自密集的 [3] 或者稀疏的特征点（intereset points）集 [4][5]。

提取的特征组成固定规格的视频级别描述。这个步骤的一个流行变体是将视觉词汇打包来在视频级别编码特征。

基于视觉词汇包对 SVM 或 RF 之类的分类器进行训练来得到最终预测。

在步骤 1 使用表面人工特征的这些算法中，使用密集采样轨迹特征的 iDT 算法（improved Dense Trajectories[6]，改进型密集轨迹算法）是最先进的。同时，在 2013 年用于动作识别的三维卷积算法也没有带来多少帮助 [7]。2014 年之后不久，两篇突破性的研究论文先后发表，它们构成了我们在本文中将要讨论的所有论文的主干。它们的主要区别是围绕组合时空信息的设计选择。

方案 1：单流网络

在这篇论文【2014 年 6 月 https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/42455.pdf 】中，其作者——Karpathy et al.——探索了多种方法来使用预训练的二维卷积网络从连续帧中融合时间信息。[8]

图 3: 融合理念。来源

如图 3 所示，视频的连续帧是所有设置中的输入。Single frame 使用单个架构，在最后阶段融合来自所有帧的信息。Late fusion 使用共享参数的两个网络，间隔 15 帧，然后在最后组合预测。Early fusion 通过卷积 10 多帧在第一层进行组合。Slow fusion 涉及在多个阶段的融合，是 early fusion 与 late fusion 的一种平衡。为了最终预测，从整个视频中采样多个剪辑并在最后平均化它们的预测分数。

尽管进行了大量实验，作者发现，与现有的基于人工特征的算法相比，结果明显更差。造成这一失败的原因有很多：

学习的时空特征没有捕捉运动特征

数据集多样化相对较少，学习这种详细特征比较困难。

方案 2: 双流网络

在 Simmoyan 和 Zisserman 的这个开拓性论文【2014 年 6 月 https://arxiv.org/pdf/1406.2199.pdf】中，作者吸取了先前 Karpathy et al. 的论文的失败教训。考虑到学习运动特征的深度框架的困难度，作者明确以堆积光流向量的形式建模运动特征。因此，这个框架有 2 个单独的网络——一个用于空间上下文（预训练的），一个用于运动上下文，而不是只有单个用于空间上下文的网络。空间网络的输入是视频中的一个单帧。作者对时间网络的输入进行了实验，发现跨 10 个连续帧堆积的双向光流表现最好。这两个流分别进行训练，然后使用 SVM 进行组合。最终预测和先前的论文一样，平均化多个采样帧的预测得分。

图 4: 双流架构。来源（https://arxiv.org/pdf/1406.2199.pdf）

尽管这种方法通过明显捕捉局部时间运动提升了单流方法的性能，但仍然存在一些缺点：

由于视频层级预测是通过平均采样剪辑的预测得分获得，因此在学习的特征中长期的时间信息仍然是丢失的。
由于训练的剪辑是从视频中均匀采样的，因此它们存在错误标签分配问题。每个剪辑都相同的基本假设与动作可能只发生在整个视频的很小一个时间段的基本情况不符。
这个方法涉及预计算光流向量并分别存储它们。另外，针对两个流的训练是分离的，意味着端到端训练落地还有很长的一段路要走。

总结

下列论文是基于这两篇论文（单流与双流）的某种方式的演化：

LRCN
C3D
Conv3D & Attention
TwoStreamFusion
TSN
ActionVlad
HiddenTwoStream
I3D
T3D

这些论文中经常出现的主题可以归纳如下。所有论文都是基于这些基本理念的即兴创作。

论文中经常出现的主题。来源 https://arxiv.org/pdf/1705.07750.pdf

对于每一份论文，我列举出它们的主要贡献并进行解释。我还展示了它们在 UCF101-split1（http://crcv.ucf.edu/data/UCF101.php）上的基准得分。

LRCN

用于视觉识别和描述的长期递归卷积网络（Long-term Recurrent Convolutional Networks）

Donahue et al.提交于 2014 年 11 月 17 日