正文
处理的主要问题:
exposure bias,即传统 teacher forcing 训练方法容易产生的单词容复问题。
主要的解决方案:
1.
intra-temporal attention:
decoding 过程中计算当前 step 在 encoder 的 attention 分布时也考虑之前的 decoding steps 在 encoder 的 attention 分布。类似 coverage 的思想,避免 decoding 过程过分集中在 encoder 的某一部分。
2. intra-decoder attention:
decoding 过程加入当前 step 在之前 decoding steps 上的 attention 分布。也是为了避免重复,但是没有做两种 attention 的对比实验。
3. reinforcement learning:
训练过程中分别用 sampling 和 beam search width=1 的方式生成独立的两个序列,并计算其与 ground truth 之间的 rouge 值作为 reward function,用 policy gradient learning 优化目标函数。此处使用 rouge 一定程度上起到提升最终的 performance 功能,但是生成的句子可读性不高。
4. other tricks:
pointer & generator(近来常用的 copy 机制),sharing decoder weights(out projection 部分加入 embedding matrix),trigram repetion avoidance(粗暴的避免 trigram 重复的方法—遇见重复直接舍弃)。
亮点:
(
1)intra-temporal attention 计算对于避免 attention 过于集中有借鉴意义。(2)
RL 的使用虽然有不足,但扩展了解决此类问题的思路。
(3)tricks 在实验中占的作用不小,论文解释不清理由,但是我们做实验时是可以一试的。
不足:
(1)intra-decoder attention 的作用也许可以单独再验证一下。就个人经验而言,seq2seq 问题,decoder 部分训练的 language model 本身就很强大,如何提升 adequacy 比较重要。(2)RL 的 reward function 选取和设计有待深入分析。(3)summarization 及同类 NLP 问题,performance 的衡量标准不能仅仅以 rouge/bleu 等硬指标为主,也可以是 human readability/user study,或者结合更具体的任务(summarization 是否有助于其他任务)等。
fishthu
本文尝试解决自动摘要目前在生成长文本时会出现的重复和可读性差的问题。
采用的方法:
1. 采用了 Intra-temporal attention 和 intra-decoder attention,前者是避免多次重复 attend 到相同的 encoder hidden state 上,后者在 decoding 的过程中将之前已经 decoded 的信息也作为上下文向量输入,两者都是希望能够改善生成的序列中的单词重复的问题。
2. 将 RL 与 teaching force 结合作为训练目标,目的是减少 exposure bias 和增加可读性。RL 部分采用的是 self-critical policy gradient training 算法,使用 ROUGE-L 作为 Reward。对该算法不是很了解,还要再去看一下参考文献。
3. 其他的一些 tricks,比如 copy 机制,sharing decoder weights,beam search 时限制输出相同的 trigram 等。
darrenyaoyao