专栏名称: 数据派THU
本订阅号是“THU数据派”的姊妹账号,致力于传播大数据价值、培养数据思维。
目录
相关文章推荐
51好读  ›  专栏  ›  数据派THU

万字长文带你轻松了解LSTM全貌

数据派THU  · 公众号  · 大数据  · 2017-06-09 18:59

正文

请到「今天看啥」查看全文


加遗忘机 ,如果某个场景结束了,模型就应该忘记当前场景的位置和时间,并且 重置任何 与该场景有关的信息;但是,如果某个人物在该场景中死亡了,那么模型应该继续记住该人物死亡的事实。因此,我们想要模型学习独立的的遗忘/记忆机制:当收到新的输入时,模型需要知道哪些认识应该保留以及哪些认识应该遗弃。

  • 添加保存机制 当模型看到新的图像时,它需要学习关于该图像的所有信息是否值得使用以及是否值得保存。也许你妈曾给你发过一篇关于卡戴珊一家的文章,但是谁在乎呢?

  • 因此当收到新的输入信息时,模型首先忘记所有它认为自己不再需要的长期信息。然后,再学习新输入信息的哪部分具有使用价值,并且将它们保存到长期记忆中。

  • 将长期记忆聚焦为工作记忆 最后,模型需要学习哪一部分的长期记忆能立刻发挥作用。例如,Bob的年龄可能是一条有用的信息,需要保存在长期记忆中(儿童更可能会爬行,而成人则更可能会工作),但是如果Bob并未出现在当前场景中,那么这条信息就可能是不相干的信息。因此,模型并不是始终都在使用全部的长期记忆的,它只需要学习应该集中注意力于哪部分记忆。


  • 这就是 长短期记忆网络。 RNN在各个时间步中改写记忆的方式可以说是相当无序的,而LSTM改写自己记忆的方式是更加精确的:通过使用特定的学习机制来判断哪些信息需要记忆、哪些信息需要更新以及哪些信息需要特别注意。这有助于LSTM对信息进行长期跟踪。

    数学表达

    让我们用数学表达式来描述LSTM的添加机制。

    在时间t时,我们收到一个新的输入xt。我们还将长期记忆和工作记忆从前两个时间步ltmt−1和wmt−1(两者都为n-长度向量)传递到当前时间步,进行更新。







    请到「今天看啥」查看全文