专栏名称: 新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

【干货】ICLR-17 最佳论文详解：理解深度学习要重新思考泛化

新智元 · 公众号 · AI · 2017-05-21 11:21

正文

所以，要是我们对“为什么神经网络表现（泛化）这么好？”给出的回答是：“我们真的不知道！”——事情就有些尴尬了。

不可思议的随机标签案例

故事从一个熟悉的地方开始——CIFAR 10（含有 5 万幅训练图像，分为 10 个类，1 万幅验证图像）和 ILSVRC（ImageNet）2012（1,281,167 训练数据，5 万幅验证图像，1000 个类别）数据集和 Inception 网络架构的变体。

使用训练数据训练网络，然后在“训练数据集”上错误为 0，这没什么好奇怪的。这充分说明了过拟合——记住训练样本，而不是学习对特征进行真正的预测。我们可以使用正则化技术应对过拟合，设计出泛化性能更好的网络。这个话题我们稍后再说。

仍然使用相同的训练数据，但这次将标签打乱（使标签和图像中的内容不再具有真正的对应关系）。使用这些标签随机的数据训练网络，会得到什么？训练错误还是 0！

“在这种情况下，实例和分类标签之间不再有任何关系。因此，学习是不可能发生的。直觉告诉我们，这种不可能会在训练过程中很清楚地表现出来，比如训练不收敛，或者收敛速度大幅减慢。让我们感到意外的是，有多个标准架构的训练过程的好些属性，在很大程度上都没有受这种标签转换的影响。”

正如作者所言，“深度神经网络很容易拟合随机标签”。从第一个实验中可以看出以下 3 个关键点：

不过，如果你把使用随机标签训练的网络在测试数据集上跑一遍，结果当然不会好，因为网络实际上并没有从数据集中学到什么。用专业一点的话说，就是网络的泛化误差很高。

综上可得：

“……通过将标签随机化，我们可以强制模型不受改变、保持同样大小、超参数或优化器的情况下，大幅提升网络的泛化误差。我们在 CIFAR 10 和 ImageNet 分类基准上训练了好几种不同标准架构，证实了这一点。”

换句话说： 模型本身、模型大小、超参数和优化器都不能解释当前最好的神经网络的泛化性能 。因为在其他条件都不变的情况下，唯独泛化误差产生大幅变动，只能得出这一个答案。

更加不可思议的随机图像案例

不仅仅打乱标签，把图像本身也打乱，会发生什么呢？或者，干脆用随机噪声代替真实图像？？

论文给出的图中，将这一实验标记为“高斯”实验，因为作者为每幅图像生成随机像素的方法，是使用了匹配原始图像数据集均值和方差的高斯分布。