正文
该网络保留了多层感知器的分层拓扑,但是
每个元素都具有与架构中每个其他元素的加权连接,并且具有与其自身关联的单个反馈连接。
并不是所有的连接都会被训练,并且
误差导数的极端非线性意味着传统的反向传播将不起作用,因此该网络采用BPTT(通过时间的反向传播算法)或随机梯度下降。
另外,参见1991年由Bill Wilson发布的
Tensor Product Networks
。
递归神经网络是递归网络的线性架构变体。
递归促进了分层特征空间中的分支,同时,由此产生的网络架构在训练进行时模仿它。
通过梯度梯度方法实现训练。
该网络在2011年由R. Socher等人发布的的
Paralsing Natural Scenes and Natural Language with Recursive Neural Networks
(通过递归神经网络分析自然场景和自然语言)
一文中,有详细描述。
LSTM之父Jürgen Schmidhuber曾于2001年首次报道了一个非常深度的学习器,通过无监督的RNN层次结构的预训练,能够对数百个神经层进行信用分配。
每个RNN被无监督地训练,以预测下一个输入。只有
产生误差的输入才会向前推进,将新的信息传送到层次结构中的下一个RNN,
然后以较慢的自组织时间尺度进行处理。
结果显示,
没有任何信息丢失,只是被压缩了。
RNN堆栈是数据的“深度生成模型”,我们可以从压缩形式重建数据。
详情可参见J.Schmidhuber等人2014年撰写的
Deep Learning in Neural Networks:An Overview
。
反向传播则失败了,即使有一些可能性,由于非线性导数的极值的计算增加,误差通过大型拓扑反向传播,使信用分配非常困难。
通过传统的反向传播时间(BPTT)或实时循环学习(RTTL),
时间流逝的误差信号往往会爆炸或消失。
反向传播误差的时间演化很大程度上
取决于权重的大小。
权重爆炸可能引起权重振荡,而消失的原因,则是因为学习过程长时间延迟,并且花费太多的时间,或者根本不起作用。
LSTM是一种具有一定的基于梯度的学习算法的新型循环网络架构训练。