突破迁移学习局限！谷歌提出“T5” 新NLP模型，多基准测试达SOTA

AI科技评论 · 公众号 · AI · 2020-02-25 13:02

正文

创建了T5模型后，作者将所有的 NLP 任务都重新构建为统一的文本到文本格式，输入和输出都始终是文本字符串，与只能输出类标签或者输入范围的 BERT 式的模型截然不同。

该文本到文本的框架让他们可以在任何 NLP 任务上都使用相同的模型、损失函数以及超参数，包括机器翻译、文档摘要、问答和分类任务（如情感分析）等等。

T5 模型甚至可以被应用到回归任务上，具体方式是训练 T5 模型来预测一个数字的字符串表示，而不是这个数字本身。

文本到文本框架图。对于每个任务，作者都考虑使用文本作为模型的输入，并训练模型生成一些目标文本。这让他们能够在多个任务上使用相同的模型、损失函数和超参数，包括翻译（绿色框）、语言可接受性（红色框）、句子相似性（黄色框）和文档摘要（蓝色框）。它也为实证评估中所包含的方法提供了一个标准的试验台。

迁移学习的一个重要部分，便是用于模型预训练的未标注的数据集。为了准确地评估扩大预训练规模的效果，我们需要一个不仅高质量、多样化而且规模庞大的数据集。

现有的预训练数据集无法满足上述三点要求，例如来自维基百科的文本是高质量的，并且格式统一，但是规模相对而言较小，而从Common Crawl 网站上爬取的文本虽然规模较大并且多样化程度高，但是质量相当低。

为了满足这三点要求，作者开发了一个Colossal Clean Crawled Corpus数据集（C4），该数据集是比维基百科大两个数量级的 Common Crawl 的清洁版本。他们的清洁处理过程涉及到删除重复数据、去除不完整的句子以及消除冒犯性或有噪音的内容。

这一过滤可以让模型在下游任务上获得更好的表现，与此同时额外规模的数据集也让模型在预训练期间不过拟合的情况下，增加其大小。

C4数据集地址：