专栏名称: 数据与算法之美
用数据思维解决意想不到的问题!
目录
相关文章推荐
算法爱好者  ·  重磅!微信将迎史诗级大更新!网友:我 ... ·  昨天  
算法与数据结构  ·  “不是 Cursor 不够强,是 ... ·  2 天前  
九章算法  ·  英伟达的薪资,太离谱了! ·  昨天  
九章算法  ·  TikTok再获90天“续命期”!但内部传言 ... ·  昨天  
九章算法  ·  「九点热评」TikTok美国拆分计划曝光! ·  2 天前  
51好读  ›  专栏  ›  数据与算法之美

关于序列建模,是时候抛弃RNN和LSTM了

数据与算法之美  · 公众号  · 算法  · 2018-04-26 17:50

正文

请到「今天看啥」查看全文



RNN、LSTM 和其变体主要对时序数据进行序列处理。如下图中的水平箭头部分:


RNN 中的序列处理过程,来自《Understanding LSTM Networks》


这些箭头表明,在长期信息访问当前处理单元之前,需要按顺序地通过所有之前的单元。这意味着它很容易遭遇梯度消失问题。


为此,人们开发了 LSTM 模型,LSTM 可以视为多个转换门的合并。ResNet 也借鉴于这种结构,它可以绕过某些单元从而记忆更长时间步的信息。因此,LSTM 在某种程度上可以克服梯度消失问题。

LSTM 中的序列处理过程,来自《Understanding LSTM Networks》


但这并不能完全解决该问题,如上图所示。LSTM 中仍然存在按顺序地从过去单元到当前单元的序列路径。实际上,现在这些路径甚至变得更加复杂,因为路径上还连接了加如记忆的分支和遗忘记忆的分支。毫无疑问,LSTM、GRU 和其变体能学习大量的长期信息(参见《The Unreasonable Effectiveness of Recurrent Neural Networks》),但它们最多只能记住约 100s 的长期信息,而不是 1000s 或 10000s 等。







请到「今天看啥」查看全文