Keras作者、谷歌研究员Chollet：深度学习的理论局限

量子位 · 公众号 · AI · 2017-07-19 13:15

正文

这就是深度学习的魅力所在：将实际值转化为向量，进而转换到几何空间，然后逐步学习一种能将某个空间映射到另一个空间的复杂几何变换。你只需要确定构建的空间具有足够高的维度，其范围能覆盖在原始数据中挖掘到的所有关联。

这种简单策略，有着几乎无限的应用空间。然而，即使有大量人工标注的数据集，目前的深度学习技术仍然无法实现很多应用程序所需的功能。

比如说，我们可以构建一个数据集，里面包含成千上万、甚至数百万条产品经理写的软件功能描述，以及程序员们编写的满足这些要求的相应源代码。就算有这样一个数据集，也无法训练一个深度学习模型来简单地阅读产品描述并生成合适的代码库。

这只是许许多多难题中的一个例子。

一般来说，无论构建多大规模的数据集，任何像编程这样需要推理、长期规划和类似算法数据操作的任务，都无法使用深度学习模型来解决。甚至连最简单的排序算法，深度神经网络学起来也是相当困难的。

这是因为深度学习模型只是为了将一个向量空间映射到另一个向量空间，而构建了一系列简单且连续的几何变换操作。

假设从X到Y存在一种可学习的连续变换，深度学习能做的只是将一个数据空间X映射到另一个空间Y，并可以将X和Y配对数据的密集采样作为训练集。

因此，我们可以将一个深度学习模型解释为一种应用程序，反之，大多数程序不能用深度学习模型来表示。

对于大多数任务，可能不存在一定规模且能解决问题的深层神经网络。即使存在对应模型，其可能不具备学习能力，即相应的几何变换太过复杂，或者可能没有可以用来学习的合适数据集。

通过堆叠更多网络层和使用更大规模的训练集来扩展当前的深度学习技术，只能一定程度上解决其中的若干问题。但但程序不能表达为一种数据流的连续几何变换时，深度学习技术能做的十分有限。

当前，人工智能领域中存在着一个很严重的问题：人们误解了深度学习模型的工作机理，并高估了网络模型的能力。

人类思想的根本特征在于“心智理论”（theory of mind），即个体理解自己与他人的心理状态，包括情绪意图、期望、思考和信念等，并借此信息预测和解释他人行为的一种能力。在岩石上画出一个笑脸，意味着我们心里是开心的。

结合深度学习后，这意味着，我们在一定程度上能成功训练出一个可以根据图片内容生成文字描述的模型。因此，我们会认为这个模型“理解”了图片中和它产生出来的文字。然而，当训练集中某个图像存在轻微改变，导致模型开始产生相当荒谬的字幕时，我们就会很惊讶。