专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
目录
相关文章推荐
DataFunTalk  ·  对话被引数 3 ... ·  22 小时前  
DataFunTalk  ·  对话被引数 3 ... ·  22 小时前  
爱可可-爱生活  ·  今日推介(第1794期):通过嫁接探索扩散T ... ·  2 天前  
爱可可-爱生活  ·  【[7星]hf-mcp-server:一个支 ... ·  2 天前  
51好读  ›  专栏  ›  机器之心

教程 | 将注意力机制引入RNN,解决5大应用领域的序列预测问题

机器之心  · 公众号  · AI  · 2017-08-02 11:17

正文

请到「今天看啥」查看全文



  • 使用神经网络的序列到序列学习(Sequence to Sequence Learning with Neural Networks, 2014)

  • 使用 RNN 编码器-解码器学习短语表征,用于统计机器翻译(Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation, 2014)


编码器-解码器结构仍然能够在很多问题上实现优秀的结果。然而,它受到了一个限制,即所有的输入序列都被强制编码成固定长度的内部向量。这一局限性限制了这些网络的性能,尤其是考虑到比较长的输入序列时,例如文本翻译中的长句子。


「这种编码器-解码器方法的一个潜在问题是神经网络需要把源句子中的所有必要信息压缩成一个固定长度的向量。这使得神经网络在处理长句子,尤其是比训练语料长的句子时会比较困难。」


——Dzmitry Bahdanau, et al.,Neural machine translation by jointly learning to align and translate, 2015


序列中的注意力机制


注意力机制是一个将编码器-解码器结构从固定长度的内部表征中解放出来的方法。它通过保持 LSTM 编码器对输入序列每一步的中间输出结果,然后训练模型学习如何选择性地关注输入,并将它们与输出序列中的项联系起来。换句话说,输出序列中的每一项都取决于输入序列中被选中的项。


「论文中提出的模型在翻译的时候每生成一个词,就会在源句子中的一系列位置中搜索最相关信息集中的地方。然后它会基于上下文向量以及这些源文本中的位置和之前生成的目标词来预测下一个目标词。」「……该模型将输入语句编码成向量序列,并在解码翻译的时候适应性地选择这些向量的子集。这使得神经翻译模型不必再将各种长度的源句子中的所有信息压缩成一个固定长度的向量。」


——Dzmitry Bahdanau, et al., Neural machine translation by jointly learning to align and translate (https://arxiv.org/abs/1409.0473), 2015


虽然这样做会增加模型的计算负担,但是会形成目标性更强、性能更好的模型。此外,模型还能够展示在预测输出序列的时候,如何将注意力放在输入序列上。这会帮助我们理解和分析模型到底在关注什么,以及它在多大程度上关注特定的输入-输出对。


「论文提出的方法能够直观地观察到生成序列中的每个词与输入序列中一些词的(软)对齐关系,这可以通过对标注权重的可视化来实现……每个图中矩阵的每一行代表与标注相关联的权重。由此我们可以看出在生成目标词时,源句子中的哪一个位置受到了重视。」

——Dzmitry Bahdanau, et al., Neural machine translation by jointly learning to align and translate (https://arxiv.org/abs/1409.0473), 2015


使用大幅图片时的问题


应用在计算机视觉问题中的卷积神经网络也面临类似问题,用特别大的图片训练模型会很困难。由此引发的结果就是在做出预测之前,图像会被大量观察,得到其近似表示(approximate impression)。


「人类感知的一个重要特点就是不会倾向于一次性处理场景的全貌,而是选择性地将注意力聚焦于视觉空间中的某些部分来获取所需信息,并且结合不同时间点的局部信息来构建整个场景的内部表征,以此指导随后的眼动和决策。」


——Recurrent Models of Visual Attention (https://arxiv.org/abs/1406.6247), 2014


这些基于 glimpse 的修正也可以被认为是注意力机制,但是并不是本文要说的注意力机制。


相关论文:


  • Recurrent Models of Visual Attention, 2014

  • DRAW: A Recurrent Neural Network For Image Generation, 2014







请到「今天看啥」查看全文