万字长文带你轻松了解LSTM全貌

数据派THU · 公众号 · 大数据 · 2017-06-09 18:59

正文

请到「今天看啥」查看全文

加遗忘机 制。例如，如果某个场景结束了，模型就应该忘记当前场景的位置和时间，并且重置任何与该场景有关的信息；但是，如果某个人物在该场景中死亡了，那么模型应该继续记住该人物死亡的事实。因此，我们想要模型学习独立的的遗忘/记忆机制：当收到新的输入时，模型需要知道哪些认识应该保留以及哪些认识应该遗弃。

添加保存机制 。当模型看到新的图像时，它需要学习关于该图像的所有信息是否值得使用以及是否值得保存。也许你妈曾给你发过一篇关于卡戴珊一家的文章，但是谁在乎呢？

因此当收到新的输入信息时，模型首先忘记所有它认为自己不再需要的长期信息。然后，再学习新输入信息的哪部分具有使用价值，并且将它们保存到长期记忆中。

‍ 将长期记忆聚焦为工作记忆 。最后，模型需要学习哪一部分的长期记忆能立刻发挥作用。例如，Bob的年龄可能是一条有用的信息，需要保存在长期记忆中（儿童更可能会爬行，而成人则更可能会工作），但是如果Bob并未出现在当前场景中，那么这条信息就可能是不相干的信息。因此，模型并不是始终都在使用全部的长期记忆的，它只需要学习应该集中注意力于哪部分记忆。

这就是 长短期记忆网络。 RNN在各个时间步中改写记忆的方式可以说是相当无序的，而LSTM改写自己记忆的方式是更加精确的：通过使用特定的学习机制来判断哪些信息需要记忆、哪些信息需要更新以及哪些信息需要特别注意。这有助于LSTM对信息进行长期跟踪。

数学表达

让我们用数学表达式来描述LSTM的添加机制。

在时间t时，我们收到一个新的输入xt。我们还将长期记忆和工作记忆从前两个时间步ltmt−1和wmt−1（两者都为n-长度向量）传递到当前时间步，进行更新。