费良宏：程序员为什么要学深度学习？

InfoQ · 公众号 · 科技媒体 · 2016-11-08 08:00

正文

请到「今天看啥」查看全文

“ My CPU is a neural-net processor; a learning computer. ”（我的处理器是一个神经处理单元，它是一台可以学习的计算机)。从历史来看人类对自身智力的探索，远远早于对于神经网络的研究。

1852年，意大利学者因为一个偶然的失误，将人类的头颅掉到硝酸盐溶液中，从而获得第一次通过肉眼关注神经网络的机会。这个意外加速了对人类智力奥秘的探索，开启了人工智能、神经元这样概念的发展。

生物神经网络这个概念的发展，和今天我们谈的神经网络有什么关系吗？我们今天谈到的神经网络，除了在部分名词上借鉴了生物学神经网络之外，跟生物学神经网络已经没有任何关系，它已经完全是数学和计算机领域的概念，这也是人工智能发展成熟的标志。这点大家要区分开，不要把生物神经网络跟我们今天谈到的人工智能有任何的混淆。

神经网络的发展并不是一帆风顺的，这中间大概经历了三起三折的过程。

大约在1904年，人类已经对人脑的神经元有了最初步的认识和了解。1943年的时候，心理学家麦卡洛克 (McCulloch) 和数学家 Pitts 参考了生物神经元的结构，发表了抽象的神经元模型M。这个概念的提出，激发了大家对人智力探索的热情。

到了1949年，有一个心理学家赫布(Hebb)提出了著名的Hebb模型，认为人脑神经细胞的突触上的强度上是可以变化的。于是计算科学家们开始考虑用调整权值的方法来让机器学习，这就奠定了今天神经网络基础算法的理论依据。

到了1958年，计算科学家罗森布拉特（Rosenblatt）提出了由两层神经元组成的神经网络，并给它起了一个很特别的名字—“感知器”（Perceptron）。人们认为这就是人类智能的奥秘，许多学者和科研机构纷纷投入到对神经网络的研究中。美国军方也大力资助了神经网络的研究，并认为神经网络是比“曼哈顿工程”更重要的项目。

这段时间直到1969年才结束，这个时期可以看作神经网络的一次高潮。事实上感知器只能做简单的线性分类任务。但是当时的人们热情太过于高涨，并没有清醒的认识到这点不足。

于是，当人工智能领域的巨擘明斯基(Minsky)指出个问题的时候，事态就发生了反转。明斯基指出，如果将计算层增加到两层，则计算量过大并且缺少有效的学习算法。所以，他认为研究更深层的网络是没有价值的。明斯基在1969年出版了一本叫《Perceptron》的书，里面通过数学证明了感知器的弱点，尤其是感知器对XOR（异或）这样的简单分类任务都无法解决。

由于明斯基在人工智能领域的巨大影响力以及书中呈现的明显的悲观态度，这很大多数多学者纷纷放弃了对于神经网络的研究。于是神经网络的研究顿时陷入了冰河期。这个时期又被称为“AI Winter”。将近十年以后，神经网络才会迎来复苏。

时间到了1986年，Rumelhar和Hinton提出了划时代的反向传播算法（Backpropagation，BP）。这个算法有效解决了两层神经网络所需要的复杂计算量问题，从而带动了使用两层神经网络研究的热潮。

我们看到的大部分神经网络的教材，都是在着重介绍两层（带一个隐藏层）神经网络的内容。这时候的Hinton 刚刚初露峥嵘，30年以后正是他重新定义了神经网络，带来了神经网络复苏的又一个春天。

尽管早期对于神经网络的研究受到了生物学的很大的启发，但从BP算法开始研究者们更多是从数学上寻求问题的最优解，不再盲目模拟人脑网络。这是神经网络研究走向成熟的里程碑的标志。

90年代中期，由Vapnik等人提出了支持向量机算法（Support Vector Machines，支持向量机）。很快这个算法就在很多方面体现出了对比神经网络的巨大优势，例如：无需调参、高效率、全局最优解等。基于这些理由，SVM算法迅速打败了神经网络算法成为那个时期的主流。而神经网络的研究则再次陷入了冰河期。

在被人摒弃的十年里面，有几个学者仍然在坚持研究。其中很重要的一个人就是加拿大多伦多大学的Geoffery Hinton教授。2006年，他的在著名的《Science》杂志上发表了论文，首次提出了“深度信念网络”的概念。

与传统的训练方式不同，“深度信念网络”有一个“预训练”（pre-training）的过程，这可以方便的让神经网络中的权值找到一个接近最优解的值，之后再使用“微调”(fine-tuning)技术来对整个网络进行优化训练。这两个技术的运用大幅度减少了训练多层神经网络的时间。在他的论文里面，他给多层神经网络相关的学习方法赋予了一个新名词— “深度学习”。

很快，深度学习在语音识别领域崭露头角。接着在2012年，深度学习技术又在图像识别领域大展拳脚。Hinton与他的学生在ImageNet竞赛中，用多层的卷积神经网络成功地对包含一千个类别的一百万张图片进行了训练，取得了分类错误率15%的好成绩，这个成绩比第二名高了将近11个百分点。

这个结果充分证明了多层神经网络识别效果的优越性。从那时起，深度学习就开启了新的一段黄金时期。我们看到今天深度学习和神经网络的火热发展，就是从那个时候开始引爆的。

可以说在过去十几年时间里，图中这四位学者引领了深度学习发展最。第一位就是Yann LeCun，他曾在多伦多大学随 Hinton攻读博士后，现在是纽约大学的教授，同时还是Facebook人工智能最重要的推动者和科学家。第二位就是是之前我们多次提到的Geoffrey Hinton，现在是Google Brain。

第三位是Bengio，他是蒙特利尔大学的教授，他仍然坚持在学术领域里面不断探索。Benjio主要贡献在于他对RNN（递归神经网络）的一系列推动。第四位是Andrew Ng（吴恩达），大家在很多媒体上见到过他。

上个月他还来到北京参加过一次技术大会。因为他的华人身份更容易被大家接受。在纯理论研究上面Andrew Ng 的光芒不如上述三位大牛，甚至可以说有不小的差距，但是在工程方面的应用他仍然是人工智能领域的权威。

神经网络究竟可以用来干什么？神经网络如果放到简单概念上，可以理解成帮助我们实现一个分类器。对于绝大多数人工智能需求其实都可以简化成分类需求。更准确的描述就是绝大多数与智能有关的问题，都可以归结为一个在多维空间进行模式分类的问题

例如，识别一封邮件，可以告诉我们这是垃圾邮件或者是正常的邮件；或者进行疾病诊断，将检查和报告输入进去实现疾病的判断。所以说，分类器就是神经网络最重要的应用场景。

究竟什么是分类器，以及分类器能用什么方式实现这个功能？简单来说，将一个数据输入给分类器，分类器将结果输出。曾经有人问过这样一个问题，如果对一个非专业的人士，你如何用通俗表达方法向他介绍神经网络的分类器。有人就用了水果识别做为例子。

例如，我非常喜欢吃苹果，当你看到一个新苹果，你想知道它是不是好吃是不是成熟，你鉴别的依据是很多年里你品尝过的许许多多的苹果。你会通过色泽、气味或其它的识别方法加以判断。这样判断过程在深度学习和神经网络里面，我们就称之为训练过的分类器。这个分类器建立完成之后，就可以帮助我们识别食入的每个苹果是不是成熟。

对于传统的人工智能方法，例如逻辑回归来说，它的决策平面是线性的。所以，这一类的方法一般只能够解决样本是线性可分的情况。如果样本呈现非线性的时候，我们可以引入多项式回归。隐层的神经元对原始特征进行了组合，并提取出来了新的特征，而这个过程是模型在训练过程中自动“学习”出来的。

利用神经网络构建分类器，这个神经网络的结构是怎样的？

其实这个结构非常简单，我们看到这个图就是简单神经网络的示意图。神经网络本质上就是一种“有向图”。图上的每个节点借用了生物学的术语就有了一个新的名词 - “神经元”。连接神经元的具有指向性的连线（有向弧）则被看作是“神经”。这这个图上神经元并不是最重要的，最重要的是连接神经元的神经。每个神经部分有指向性，每一个神经元会指向下一层的节点。

节点是分层的，每个节点指向上一层节点。同层节点没有连接，并且不能越过上一层节点。每个弧上有一个值，我们通常称之为”权重“。通过权重就可以有一个公式计算出它们所指的节点的值。这个权重值是多少？我们是通过训练得出结果。它们的初始赋值往往通过随机数开始，然后训练得到的最逼近真实值的结果作为模型，并可以被反复使用。这个结果就是我们说的训练过的分类器。