专栏名称: 雷克世界
赛迪研究院(CCID)主办的新媒体平台,每天跟你聊聊机器人、人工智能、智能制造领域的那些你想知道的事……
目录
相关文章推荐
51好读  ›  专栏  ›  雷克世界

LSTM、GRU、NTM……为何循环神经网络在众多机器学习方法中脱颖而出?(附指南)

雷克世界  · 公众号  · 机器人  · 2017-07-06 17:08

正文

请到「今天看啥」查看全文


该网络保留了多层感知器的分层拓扑,但是 每个元素都具有与架构中每个其他元素的加权连接,并且具有与其自身关联的单个反馈连接。


并不是所有的连接都会被训练,并且 误差导数的极端非线性意味着传统的反向传播将不起作用,因此该网络采用BPTT(通过时间的反向传播算法)或随机梯度下降。


另外,参见1991年由Bill Wilson发布的 Tensor Product Networks


递归循环网络

递归神经网络是递归网络的线性架构变体。


递归促进了分层特征空间中的分支,同时,由此产生的网络架构在训练进行时模仿它。


通过梯度梯度方法实现训练。


该网络在2011年由R. Socher等人发布的的 Paralsing Natural Scenes and Natural Language with Recursive Neural Networks (通过递归神经网络分析自然场景和自然语言) 一文中,有详细描述。


神经历史压缩器

LSTM之父Jürgen Schmidhuber曾于2001年首次报道了一个非常深度的学习器,通过无监督的RNN层次结构的预训练,能够对数百个神经层进行信用分配。


每个RNN被无监督地训练,以预测下一个输入。只有 产生误差的输入才会向前推进,将新的信息传送到层次结构中的下一个RNN, 然后以较慢的自组织时间尺度进行处理。


结果显示, 没有任何信息丢失,只是被压缩了。 RNN堆栈是数据的“深度生成模型”,我们可以从压缩形式重建数据。


详情可参见J.Schmidhuber等人2014年撰写的 Deep Learning in Neural Networks:An Overview


反向传播则失败了,即使有一些可能性,由于非线性导数的极值的计算增加,误差通过大型拓扑反向传播,使信用分配非常困难。


长短期记忆网络

通过传统的反向传播时间(BPTT)或实时循环学习(RTTL), 时间流逝的误差信号往往会爆炸或消失。


反向传播误差的时间演化很大程度上 取决于权重的大小。 权重爆炸可能引起权重振荡,而消失的原因,则是因为学习过程长时间延迟,并且花费太多的时间,或者根本不起作用。


LSTM是一种具有一定的基于梯度的学习算法的新型循环网络架构训练。







请到「今天看啥」查看全文