LSTM、GRU、NTM……为何循环神经网络在众多机器学习方法中脱颖而出？（附指南）

雷克世界 · 公众号 · 机器人 · 2017-07-06 17:08

正文

该网络保留了多层感知器的分层拓扑，但是 每个元素都具有与架构中每个其他元素的加权连接，并且具有与其自身关联的单个反馈连接。

并不是所有的连接都会被训练，并且 误差导数的极端非线性意味着传统的反向传播将不起作用，因此该网络采用BPTT（通过时间的反向传播算法）或随机梯度下降。

另外，参见1991年由Bill Wilson发布的 Tensor Product Networks 。

递归循环网络

递归神经网络是递归网络的线性架构变体。

递归促进了分层特征空间中的分支，同时，由此产生的网络架构在训练进行时模仿它。

通过梯度梯度方法实现训练。

该网络在2011年由R. Socher等人发布的的 Paralsing Natural Scenes and Natural Language with Recursive Neural Networks （通过递归神经网络分析自然场景和自然语言）一文中，有详细描述。

神经历史压缩器

LSTM之父Jürgen Schmidhuber曾于2001年首次报道了一个非常深度的学习器，通过无监督的RNN层次结构的预训练，能够对数百个神经层进行信用分配。

每个RNN被无监督地训练，以预测下一个输入。只有 产生误差的输入才会向前推进，将新的信息传送到层次结构中的下一个RNN， 然后以较慢的自组织时间尺度进行处理。

结果显示， 没有任何信息丢失，只是被压缩了。 RNN堆栈是数据的“深度生成模型”，我们可以从压缩形式重建数据。

详情可参见J.Schmidhuber等人2014年撰写的 Deep Learning in Neural Networks：An Overview 。

反向传播则失败了，即使有一些可能性，由于非线性导数的极值的计算增加，误差通过大型拓扑反向传播，使信用分配非常困难。

长短期记忆网络

通过传统的反向传播时间（BPTT）或实时循环学习（RTTL）， 时间流逝的误差信号往往会爆炸或消失。

反向传播误差的时间演化很大程度上 取决于权重的大小。 权重爆炸可能引起权重振荡，而消失的原因，则是因为学习过程长时间延迟，并且花费太多的时间，或者根本不起作用。

LSTM是一种具有一定的基于梯度的学习算法的新型循环网络架构训练。