为什么大家都不戳破深度学习的本质？

36大数据 · 公众号 · 大数据 · 2017-12-08 07:50

正文

请到「今天看啥」查看全文

所有生存问题都可以归结为一个元问题：如何识别出这个问题中的那些个恒定不变的东西。比如：溪流中的鱼、回家的方向……如果说智能中还存在别的成分，比如：想象、创造工具、解决问题，都可以规约到某种抽象手段上。归根结底，人类解决一切问题的方法只有一个——运用抽象，在更高维度上调和矛盾。

一切绕不开「恒定表征」（invariant representations）。

抽象的本质

就如同人们在认可了「负数」这一概念之后，终于能将「加法」&「减法」这两种表象上完全不同（一个增加，一个减少）的运算，统一为「整数域上的加法」。从更高的维度调和矛盾，这正是大脑皮层的构造方式，也是其工作原理。不断在现象中找到共同点，提取出来，取个名字；这些名字又成为了上一层抽象的基石（或者叫「词汇」）。这样一层一层，直至得到那个智能的圣杯——恒定表征。

举个例子，我们是如何识别边缘的呢？

我们先来考察一小块 3×3 的视网膜，分别标记为 #1～#9 （如下图所示）。当一条竖线出现时（#1, #4, #7 均被激活），电信号传递到第二层。第二层的每一个神经元，分别响应视网膜上一组细胞被激活的情况。比如：第二层最左边的那片神经元，响应的是单个视网膜细胞被激活的情况。再比如：第二层左二那片神经元，响应的是任意两个视网膜细胞被激活的情况。以此类推……

边缘识别：最下层是视网膜细胞；当某个视网膜细胞组合被激活后，会激活其上一层的相应神经元；而上一层神经元的某个组合被激活后，又会链式地激活更上一层的神经元如果我们把时间的因素考虑进去，假设信号并不会马上消失，而是随着时间衰减，那么只要时间够短，输入 (#1, #4, #7)、(#2, #5, #8)、(#3, #6, #9) 这三组刺激，就会在第三层激活某个神经元，代表「发现一条竖线」。

看，其实每一个神经元都是一个「单词」（或是「概念」／「抽象」／「特征」）。只不过低层神经元描述的「单词」抽象程度更低。比如：第二层那个 #(1, 4, 7) 神经元代表的是「在视网膜的最左边出现一条竖线」，而其上层那个则没有「在视网膜的最左边」这一约束。

记忆的角色

神经元可以在 5 毫秒内完成信息的收集-整合-输出，相当于运算速度为每秒 200 次。人类可以在半秒内（相当于 100 步）识别图像、作出选择…… 100 步，机器可做不到。在人类已知的算法里面，也许只有「打表」（把答案事先存储在记忆中，用时并不作计算，而只是提取）可以做到。所以，整个大脑皮层就是一个记忆系统，而非什么计算机。

深度学习做对了什么？

多层网络，提供了逐层抽象的通道。如今，图像识别系统正是这么做的：底层识别边缘，而后识别特定形状，再高层识别某种特征……

卷积，提供了获得「恒定表征」的手段。

还有什么我们不知道？

当我们想要提取某段记忆时，往往只需要只言片语就行了。也就是说，记忆似乎是以一种全息的形式存储的。任何片段都包含了全部。

还有，我们依然不知道大脑是怎么在 100 步内完成决策的。我们也不知道为什么会有那么多反馈连接？轴突 v.s. 树突在功能上有什么分别？……

现在让我们回过头来看作者的三个洞见，用黑话再讲一遍就是：

理解，是对「大脑如何形成记忆，并利用这些记忆作出预测」的一个内部度量。
预测，是某种自我调节机制的副产品。
大脑皮层在外表 & 结构上存在着惊人的同质性。也就是说，大脑皮层使用相同的计算方式来完成它的一切功能。人类展现出来的所有智能（视觉、听觉、肢体运动……）都是基于一套统一的算法

End