专栏名称: AI科技评论
「AI科技评论」是国内顶尖人工智能媒体和产业服务平台,专注全球 AI 业界、学术和开发三大方向的深度报道。
目录
相关文章推荐
51好读  ›  专栏  ›  AI科技评论

引入额外门控运算,LSTM稍做修改,性能便堪比Transformer-XL

AI科技评论  · 公众号  · AI  · 2020-02-17 13:58

正文

请到「今天看啥」查看全文


研究意义


LSTM来源于循环神经网络RNN,其核心是解决了RNN所存在的遗忘性问题。

所以LSTM在普通RNN基础上,在隐藏层各神经单元中增加记忆单元,从而使时间序列上的记忆信息可控,每次在隐藏层各单元间传递时通过几个可控门(遗忘门、输入门、输出门),可以控制之前信息和当前信息的记忆和遗忘程度,从而使RNN网络具备了长期记忆功能,对于RNN的实际应用,有巨大作用。

LSTM已经成为了众多NLP任务的标配,甚至成为了现在主流的序列到序列模型的基础性组件,所以在LSTM中加以创新是非常有意义的。

主要思路


如图1所示,我们可以看到输入xt和状态ht是独立的输入到LSTM中。

图1  LSTM

作者认为这会带来一些问题,由于输入x和状态ht它们只在LSTM内部进行交互,在这之前缺乏交互,这可能会导致上下文信息的丢失。为此,本论文提出Mogrifier LSTM,不改变LSTM本身的结构,而是让输入和状态首先进行交互,然后通过这种方式增强模型的上下文建模能力。

图 2

如上述公式所示,我们可以看到原始的LSTM的计算步骤,其中f是遗忘门用来控制前一个时刻的记忆Cprev保留多少记忆;i是输入门,用来控制当前的信息j应输入多少;o是输出门(output),用来控制当前记忆单元应该输出多少。

本文并没有改变如图2所示的计算过程,也就是说并没有改变LSTM的原始结构。它将输入到LSTM中的x和hprev改变了,具体过程如图 3 所示。

图 3

如图3 所示,我们可以看到当x和h输入到LSTM之前进行了多轮的交互计算,其中x-1就是x,而h0就是hprev,它们经过的交互轮数记为r,r是一个超参数,当r=0的时候,相当于x和hprev直接输入到LSTM中,此时相当于原始的LSTM计算。将这个计算过程通过数学方式表示:

图 4






请到「今天看啥」查看全文