引入额外门控运算，LSTM稍做修改，性能便堪比Transformer-XL

AI科技评论 · 公众号 · AI · 2020-02-17 13:58

正文

LSTM来源于循环神经网络RNN，其核心是解决了RNN所存在的遗忘性问题。

所以LSTM在普通RNN基础上，在隐藏层各神经单元中增加记忆单元，从而使时间序列上的记忆信息可控，每次在隐藏层各单元间传递时通过几个可控门（遗忘门、输入门、输出门），可以控制之前信息和当前信息的记忆和遗忘程度，从而使RNN网络具备了长期记忆功能，对于RNN的实际应用，有巨大作用。

LSTM已经成为了众多NLP任务的标配，甚至成为了现在主流的序列到序列模型的基础性组件，所以在LSTM中加以创新是非常有意义的。

如图1所示，我们可以看到输入xt和状态ht是独立的输入到LSTM中。

图1 LSTM

作者认为这会带来一些问题，由于输入x和状态ht它们只在LSTM内部进行交互，在这之前缺乏交互，这可能会导致上下文信息的丢失。为此，本论文提出Mogrifier LSTM，不改变LSTM本身的结构，而是让输入和状态首先进行交互，然后通过这种方式增强模型的上下文建模能力。

图 2

如上述公式所示，我们可以看到原始的LSTM的计算步骤，其中f是遗忘门用来控制前一个时刻的记忆Cprev保留多少记忆；i是输入门，用来控制当前的信息j应输入多少；o是输出门（output），用来控制当前记忆单元应该输出多少。

本文并没有改变如图2所示的计算过程，也就是说并没有改变LSTM的原始结构。它将输入到LSTM中的x和hprev改变了，具体过程如图 3 所示。

图 3

如图3 所示，我们可以看到当x和h输入到LSTM之前进行了多轮的交互计算，其中x-1就是x，而h0就是hprev，它们经过的交互轮数记为r，r是一个超参数，当r=0的时候，相当于x和hprev直接输入到LSTM中，此时相当于原始的LSTM计算。将这个计算过程通过数学方式表示：

图 4