专栏名称: AI科技评论
「AI科技评论」是国内顶尖人工智能媒体和产业服务平台,专注全球 AI 业界、学术和开发三大方向的深度报道。
目录
相关文章推荐
机器之心  ·  MoE推理「王炸」组合:昇腾×盘古让推理性能 ... ·  6 小时前  
量子位  ·  OpenAI首次回应人机情感问题:越来越多人 ... ·  7 小时前  
爱可可-爱生活  ·  【[29星]MLIP:机器学习原子间势能模型 ... ·  昨天  
爱可可-爱生活  ·  //@爱可可-爱生活:今日开奖,欢迎参与~- ... ·  昨天  
51好读  ›  专栏  ›  AI科技评论

如何在NLP中有效利用Deep Transformer?

AI科技评论  · 公众号  · AI  · 2020-01-17 12:15

正文

请到「今天看啥」查看全文


,如下图a,稠密的残差连接则可以看做是一个标准加权的全连接网络如下图b,多层表示融合则可以表示为只在编码端的最顶层进行动态线性融合操作如下图c。DLCL的方法则为每个连续的编码层做一个单独的权重聚合。通过这种方式,可以在层之间创建更多的连接如图d

在WMT16-en2de,NIST OpenMT’12-ch2en和WMT18-zh2en等任务上,应用了DLCL 的深层Transformer模型(30/25层编码层)相比于Transformer-Big/Base提升了0.4~2.4个BLEU值,同时相比于Transformer取得了3倍的训练加速和1.6倍的模型压缩。


2、 Deep Transformer在语音识别中的应用

论文标题:Very Deep Self-Attention Networks for End-to-End Speech Recognition

这篇工作将深层的transformer 结构用于了语音识别任务,语音识别任务与机器翻译相似,采用的均是端到端的模型结构。文中分析表明,具有强大学习能力的深层Transformer网络能够超越以往端到端模型的性能。此外,为编码器和解码器结合随机残差连接训练了具有48层编码层的深层网络模型。
文中在训练深层网络时为了解决梯度消失和梯度爆炸的问题,使深层网络能够稳定训练,采用了与之前相同的pre-norm方法,同时作者认为残差网络时transformer能够多层训练,但是随着层数的加深,残差连接同样存在冗余,所以作者设计了类似drop的方式,在训练的过程中随机跳过某些子层,在图像领域中,曾有类似的方法如Stochastic Depth,随着NLP领域中深层网络的不断发展,这也是该方法首次被应用于NLP任务中,并作出了针对性的调整。
将pre-norm的子层计算定义为 为对应的子层运算,比如自注意力子层,前馈神经网络子层,或者编码解码注意力子层。随机残差连接的方式则是应用一个掩码M在子层的运算 上,如下:

掩码M为1或0,产生于类似于dropout的伯努利分布,当M=1时子层运算被激活,而当M=0时则跳过子层的运算。随机的残差连接是模型在训练阶段创造出更多的子网络结构,而在推理阶段,则使用整个网络,产生了类似模型集成的效果。
针对跳过每个层的概率p,作者认为,越底层p的概率应该越小,所以作者设置p的策略为:1)同一层内的子层共享相同的mask;2)浅层具有更低的概率: ,其中p是一个全局变量,用于控制模型随机残差的力度。
此外对于每个子层的输出,作者对其进行了类似于drop的放缩操作,放缩系数

3、 Deep Transformer在机器翻译中的应用(2)







请到「今天看啥」查看全文