专栏名称: 机器学习算法与自然语言处理
一个有情怀的公众号。机器学习、自然语言处理、算法等知识集中营、期待与你相遇~
目录
相关文章推荐
新浪科技  ·  #日本任天堂专卖店顾客寥寥#【独家 | ... ·  17 小时前  
新浪科技  ·  【#曝尊界S800大定均价破100万元#】博 ... ·  昨天  
腾讯研究院  ·  腾讯研究院AI速递 20250604 ·  2 天前  
51好读  ›  专栏  ›  机器学习算法与自然语言处理

【Transformers】Transformers Assemble(PART II)

机器学习算法与自然语言处理  · 公众号  ·  · 2020-02-23 00:00

正文

请到「今天看啥」查看全文


  • 计算 similarity score,其中 为相对位置编码
  • 计算输出,其中 为 attention weight

扩展到多头注意力整体结构为,

2.3 Other tricks

  • relative position embedding & catching mechanism [8]
  • adaptive attention span [9]
  • adaptive softmax [10]

实验结果验证了FFN层和persistent vector的重要性,缺少的话效果非常差。每一层persistent vector的数量在N=1024时已经达到比较好的效果。

2.4 reference

  • Code Here(没找到 - -)
  • Making Transformer networks simpler and more efficient [11]
  • Open Review [12]

Large Memory Layers with Product Keys [13]

同样来自FAIR的工作,解决的痛点: 更好的模型性能——>更大的模型capacity——>更大的计算成本 。提出了一种structured memory,在明显增加模型capacity的同时计算成本的增加可以忽略不计,而且是简单可插拔式设计,下图是文中将vanilla transformer中的(部分)FFN层替换为memory layer的示例。

3.1 Overall Structure

来看整体的设计,包含了三个部分:

  • 「Query Network:」 通过函数 维输入降维映射到latent space生成维度为 query






请到「今天看啥」查看全文