专栏名称: AI科技评论
「AI科技评论」是国内顶尖人工智能媒体和产业服务平台,专注全球 AI 业界、学术和开发三大方向的深度报道。
目录
相关文章推荐
爱可可-爱生活  ·  【[192星]openai-agents-j ... ·  7 小时前  
爱可可-爱生活  ·  本文提出了一种名为SEFT的新型稀疏LLM微 ... ·  2 天前  
爱可可-爱生活  ·  [CL]《MetaFaith: ... ·  2 天前  
爱可可-爱生活  ·  本文通过首次对大型语言模型(LLM)的“忠实 ... ·  2 天前  
爱可可-爱生活  ·  今日推介(第1790期):大块推理时训练框架 ... ·  2 天前  
51好读  ›  专栏  ›  AI科技评论

势如破竹!169 篇论文带你看 BERT 在 NLP 中的 2019 年!

AI科技评论  · 公众号  · AI  · 2020-01-21 14:23

正文

请到「今天看啥」查看全文


169 篇与 BERT 相关的论文 ,并手动将它们标记为几个不同的研究类别(例如:构建特定领域的 BERT 版本、理解 BERT 的内部机制、构建多语言BERT 等)。
下面是所有这些论文的分布情况:
如图为在 2018 年 11 月至 2019 年 12 月间发表的与 BERT 相关的论文集合。y 轴代表的是对引文数目的对数统计(由 Google Scholar统计),它的下限为 0。这些文章中的大多数是通过在 arXiv 论文的标题中搜索关键词 BERT 找到的。
这种信息通常具有更好的交互性,因此这里我给出了它的 GIF 图。如果感兴趣的话,你也可以打开以 Jupyter 笔记本形式记录的原代码,可以自行调整图中的参数,相关链接如下:
  • https://github.com/nslatysheva/BERT_papers/blob/master/Plotting_BERT_Papers.ipynb
上述实验使用的原始数据如下:
  • https://raw.githubusercontent.com/nslatysheva/BERT_papers/master/BERT_Papers.csv

如图为在各篇 BERT 论文上移动鼠标时出现的数据。
现在已经有很多关于 BERT 的论文发表。从上图我们可以发现以下几点:
  • 一个有趣的现象是, 从 2018 年 11 月份发表 BERT 的原始论文的时间与大概 2019 年 1 月份开始出现一大波相关论文的时间之间的间隔,相当短

  • BERT (相关)论文最初的发表浪潮往往集中在一些核心的 BERT 模型的即时扩展和应用上(比如:图中红色、紫色和橙色部分),例如使 BERT 适用于推荐系统,情感分析,文本摘要和文档检索。

  • 然后从 4 月开始, 一系列探讨 BERT 内部机制的论文(图中绿色部分)相继发布 ,例如了解 BERT 如何通过建模进行语言的分层,并分析注意力头之间的冗余现象。其中特别令人印象深刻的是一篇名为「利用 BERT 重新探索经典 NLP 的传播途径」的论文(相关论文链接为:https://arxiv.org/abs/1905.05950)。该论文作者发现了BERT 的内部计算可以反映传统 NLP 的工作流程,即词性标记、依赖项分析、实体标记等。

  • 然后在 9 月份左右, 又发布了一系列有关压缩 BERT 模型尺寸的论文 (如图青色部分),例如DistilBERT,ALBERT 和 TinyBERT 等论文。其中,来自 HuggingFace 的 DistilBERT 模型是 BERT 的压缩版本,其参数只有先前的一半(从 1.1 亿降至 6600 万),但在对重要 NLP 任务的实现上却达到了之前性能的 95%(具体请参阅 GLUE 基准)。原始的 BERT 模型并不轻巧,这在计算资源不足的地方(如移动手机)是一个问题。

请注意这份 BERT 论文清单很可能是不完整的。如果与 BERT 相关论文的实际数量是本人所整理的两倍,我不会感到惊讶。在这里做一个粗略的数量估计,目前引用过原始 BERT 论文的数量已经超过了 3100。
如果你对其中一些模型的名称感到好奇,这些名称实际上是 NLP 的研究人员对《芝麻街》中的人物着迷的体现。我们可以将这一切归咎于(开先例以《芝麻街》人物命名)的论文 ELMo,论文相关链接如下:
  • https://www.google.com/search?q=elmo+paper&oq=elmo+paper&aqs=chrome..69i57j0l5j69i61j69i60.1625j1j7&sourceid=chrome&ie=UTF-8
这使得后来的诸如 BERT 和 ERNIE 模型也开始以相关任务命名,变得不可避免。我非常热切地在等待一个 BIGBIRD 模型,那么我们不妨将其压缩版本称为 SMALLBIRD?

一、从 BERT 文献中得出的一些启发







请到「今天看啥」查看全文