专栏名称: AI科技评论
「AI科技评论」是国内顶尖人工智能媒体和产业服务平台,专注全球 AI 业界、学术和开发三大方向的深度报道。
目录
相关文章推荐
爱可可-爱生活  ·  【[45星]NVIDIA ... ·  昨天  
量子位  ·  ChatGPT普通会员能用编程神器Codex ... ·  昨天  
爱可可-爱生活  ·  #听见微博# #微博声浪计划# ... ·  2 天前  
爱可可-爱生活  ·  【[772星]rmpc:一款终端音乐播放器客 ... ·  2 天前  
51好读  ›  专栏  ›  AI科技评论

ICLR 2020 满分论文 | 额外高斯先验目标,缓解负多样性无知

AI科技评论  · 公众号  · AI  · 2020-01-13 19:25

正文

请到「今天看啥」查看全文


我不能创造的东西,我就不能理解它 ”。语言生成反映了语言理解的发展水平。

近年来,语言生成模型取得了显着进步,尤其是在深度神经网络(DNN)的快速发展下。 有几种典型的语言生成模型,例如序列到序列(seq2seq)模型,生成对抗网络(GAN),变分自编码器(VAE)和自回归网络。

语言生成通常被建模为序列预测任务,该序列采用最大似然估计(MLE)作为标准训练准则(即目标)。 MLE由于其直观性和灵活性而获得了很大的成功。 但是,由于MLE,序列预测存在下列几个问题:

  • 曝光偏差: 模型在训练过程中没有暴露到所有误差下;

  • 损失失配: 在训练过程中,我们最大化对数似然,而在推理过程中,模型是通过不同指标(例如BLEU或ROUGE)进行评估的;

  • 多样性缺乏: 生成的文本无聊,普通,重复性和短视等;

  • 负多样性无知: MLE无法为不同的错误模型输出分配适当的分数,这意味着在训练过程中所有错误输出均得到同等对待。

除了负多样性无知之外, 已经有各种各样的工作可以缓解上述MLE作为训练目标的不足。 负多样性无知是不公平地低估了目标集单元的内部关联,由于语言生成的目标单元存在近义,相似表达等情形,这使得语言生成任务中特殊于一般的序列预测任务。当MLE目标比较其预测序列和真实序列时,它采取了一次全部匹配的策略。预测的序列将被赋予正确或不正确的二进制标签。但是,这些不正确的训练预测可能会千差万别,让模型知道哪个错误的预测比其他错误的预测更正确或更不正确,可能会更有效地指导模型训练。







请到「今天看啥」查看全文