专栏名称: 新机器视觉

最前沿的机器视觉与计算机视觉技术

深度学习的综述

新机器视觉 · 公众号 · AI · 2025-06-03 17:01

正文

请到「今天看啥」查看全文

4.1 深度监督学习

监督学习应用在当数据标记、分类器分类或数值预测的情况。LeCun 等人 (2015) 对监督学习方法以及深层结构的形成给出了一个精简的解释。Deng 和 Yu(2014) 提到了许多用于监督和混合学习的深度网络，并做出解释，例如深度堆栈网络 (DSN) 及其变体。Schmidthuber(2014) 的研究涵盖了所有神经网络，从早期神经网络到最近成功的卷积神经网络 (CNN)、循环神经网络 (RNN)、长短期记忆 (LSTM) 及其改进。

4.2 深度无监督学习

当输入数据没有标记时，可应用无监督学习方法从数据中提取特征并对其进行分类或标记。LeCun 等人 (2015) 预测了无监督学习在深度学习中的未来。Schmidthuber(2014) 也描述了无监督学习的神经网络。Deng 和 Yu(2014) 简要介绍了无监督学习的深度架构，并详细解释了深度自编码器。

4.3 深度强化学习

强化学习使用奖惩系统预测学习模型的下一步。这主要用于游戏和机器人，解决平常的决策问题。Schmidthuber(2014) 描述了强化学习 (RL) 中深度学习的进展，以及深度前馈神经网络 (FNN) 和循环神经网络 (RNN) 在 RL 中的应用。Li(2017) 讨论了深度强化学习 (Deep Reinforcement Learning, DRL)、它的架构 (例如 Deep Q-Network, DQN) 以及在各个领域的应用。（具体资料可见《强化学习》第二版）

Mnih 等人 (2016) 提出了一种利用异步梯度下降进行 DNN 优化的 DRL 框架。

van Hasselt 等人 (2015) 提出了一种使用深度神经网络 (deep neural network, DNN) 的 DRL 架构。

深度神经网络

在本节中，我们将简要地讨论深度神经网络 (DNN)，以及它们最近的改进和突破。神经网络的功能与人脑相似。它们主要由神经元和连接组成。当我们说深度神经网络时，我们可以假设有相当多的隐藏层，可以用来从输入中提取特征和计算复杂的函数。Bengio(2009) 解释了深度结构的神经网络，如卷积神经网络 (CNN)、自编码器 (AE) 等及其变体。Deng 和 Yu(2014) 详细介绍了一些神经网络架构，如 AE 及其变体。Goodfellow 等 (2016) 对深度前馈网络、卷积网络、递归网络及其改进进行了介绍和技巧性讲解。Schmidhuber(2014) 提到了神经网络从早期神经网络到最近成功技术的完整历史。

5.1 深度自编码器

自编码器 (AE) 是神经网络 (NN)，其中输出即输入。AE 采用原始输入，编码为压缩表示，然后解码以重建输入。在深度 AE 中，低隐藏层用于编码，高隐藏层用于解码，误差反向传播用于训练.。

5.1.1 变分自编码器

变分自动编码器 (VAE) 可以算作解码器。VAE 建立在标准神经网络上，可以通过随机梯度下降训练 (Doersch,2016)。

5.1.2 多层降噪自编码器

在早期的自编码器 (AE) 中，编码层的维度比输入层小（窄）。在多层降噪自编码器 (SDAE) 中，编码层比输入层宽 (Deng and Yu, 2014)。

5.1.3 变换自编码器

深度自动编码器 (DAE) 可以是转换可变的，也就是从多层非线性处理中提取的特征可以根据学习者的需要而改变。变换自编码器 (TAE) 既可以使用输入向量，也可以使用目标输出向量来应用转换不变性属性，将代码引导到期望的方向 (Deng and Yu,2014)。

5.2 深度卷积神经网络

四种基本思想构成了卷积神经网络 (CNN)，即：局部连接、共享权重、池化和多层使用。CNN 的第一部分由卷积层和池化层组成，后一部分主要是全连接层。卷积层检测特征的局部连接，池层将相似的特征合并为一个。CNN 在卷积层中使用卷积而不是矩阵乘法。

Krizhevsky 等人 (2012) 提出了一种深度卷积神经网络 (CNN) 架构，也称为 AlexNet，这是深度学习 (Deep Learning, DL) 的一个重大突破。网络由 5 个卷积层和 3 个全连接层组成。该架构采用图形处理单元 (GPU) 进行卷积运算，采用线性整流函数 (ReLU) 作为激活函数，用 Dropout 来减少过拟合。

Iandola 等人 (2016) 提出了一个小型的 CNN 架构，叫做「SqueezeNet」。

Szegedy 等人 (2014) 提出了一种深度 CNN 架构，名为 Inception。Dai 等人 (2017) 提出了对 Inception-ResNet 的改进。

Redmon 等人 (2015) 提出了一个名为 YOLO (You Only Look Once) 的 CNN 架构，用于均匀和实时的目标检测。

Zeiler 和 Fergus (2013) 提出了一种将 CNN 内部激活可视化的方法。

Gehring 等人 (2017) 提出了一种用于序列到序列学习的 CNN 架构。

Bansal 等人 (2017) 提出了 PixelNet，使用像素来表示。

Goodfellow 等人 (2016) 解释了 CNN 的基本架构和思想。Gu 等人 (2015) 对 CNN 的最新进展、CNN 的多种变体、CNN 的架构、正则化方法和功能以及在各个领域的应用进行了很好的概述。

5.2.1 深度最大池化卷积神经网络

最大池化卷积神经网络 (MPCNN) 主要对卷积和最大池化进行操作，特别是在数字图像处理中。MPCNN 通常由输入层以外的三种层组成。卷积层获取输入图像并生成特征图，然后应用非线性激活函数。最大池层向下采样图像，并保持子区域的最大值。全连接层进行线性乘法。在深度 MPCNN 中，在输入层之后周期性地使用卷积和混合池化，然后是全连接层。

5.2.2 极深的卷积神经网络

Simonyan 和 Zisserman(2014) 提出了非常深层的卷积神经网络 (VDCNN) 架构，也称为 VGG Net。VGG Net 使用非常小的卷积滤波器，深度达到 16-19 层。Conneau 等人 (2016) 提出了另一种文本分类的 VDCNN 架构，使用小卷积和池化。他们声称这个 VDCNN 架构是第一个在文本处理中使用的，它在字符级别上起作用。该架构由 29 个卷积层组成。

5.3 网络中的网络

Lin 等人 (2013) 提出了网络中的网络 (Network In Network,NIN)。NIN 以具有复杂结构的微神经网络代替传统卷积神经网络 (CNN) 的卷积层。它使用多层感知器 (MLPConv) 处理微神经网络和全局平均池化层，而不是全连接层。深度 NIN 架构可以由 NIN 结构的多重叠加组成。

5.4 基于区域的卷积神经网络

Girshick 等人 (2014) 提出了基于区域的卷积神经网络 (R-CNN)，使用区域进行识别。R-CNN 使用区域来定位和分割目标。该架构由三个模块组成：定义了候选区域的集合的类别独立区域建议，从区域中提取特征的大型卷积神经网络 (CNN)，以及一组类特定的线性支持向量机 (SVM)。

5.4.1 Fast R-CNN

Girshick(2015) 提出了快速的基于区域的卷积网络 (Fast R-CNN)。这种方法利用 R-CNN 架构能快速地生成结果。Fast R-CNN 由卷积层和池化层、区域建议层和一系列全连接层组成。

5.4.2 Faster R-CNN

Ren 等人 (2015) 提出了更快的基于区域的卷积神经网络 (Faster R-CNN)，它使用区域建议网络 (Region Proposal Network, RPN) 进行实时目标检测。RPN 是一个全卷积网络，能够准确、高效地生成区域建议 (Ren et al.，2015)。

5.4.3 Mask R-CNN

何恺明等人 (2017) 提出了基于区域的掩模卷积网络 (Mask R-CNN) 实例目标分割。Mask R-CNN 扩展了 R-CNN 的架构，并使用一个额外的分支用于预测目标掩模。

5.4.4 Multi-Expert R-CNN

Lee 等人 (2017) 提出了基于区域的多专家卷积神经网络 (ME R-CNN)，利用了 Fast R-CNN 架构。ME R-CNN 从选择性和详尽的搜索中生成兴趣区域 (RoI)。它也使用 per-RoI 多专家网络而不是单一的 per-RoI 网络。每个专家都是来自 Fast R-CNN 的全连接层的相同架构。

5.5 深度残差网络

He 等人 (2015) 提出的残差网络 (ResNet) 由 152 层组成。ResNet 具有较低的误差，并且容易通过残差学习进行训练。更深层次的 ResNet 可以获得更好的性能。在深度学习领域，人们认为 ResNet 是一个重要的进步。

5.5.1 Resnet in Resnet

Targ 等人 (2016) 在 Resnet in Resnet (RiR) 中提出将 ResNets 和标准卷积神经网络 (CNN) 结合到深层双流架构中。

5.5.2 ResNeXt

Xie 等人 (2016) 提出了 ResNeXt 架构。ResNext 利用 ResNets 来重复使用分割-转换-合并策略。