Facebook开源最大规模并行语料，45亿语料，覆盖576种语言对，或成为NMT评估标准

AI科技评论 · 公众号 · AI · 2020-02-07 14:34

正文

请到「今天看啥」查看全文

以上这些，从数据来源上讲都有局限。为了使并行语料库量大、覆盖主题广泛，Facebook在CCMatrix这项工作中，选择使用了随机抓取web中的数据作为并行语料的来源，他们每个月随机发送url，从而获得包含各种语言的网页快照（TB级）。

十次快照语料中，不同语言的单句数量（其中一次快照只包含英语）

然后通过预处理去除高达70%的重复数据（例如模板文件、导航菜单、cookie等），并使用fastText（语言识别器，可以识别176种语言）来识别文档中的语言，最后使用一个在Wikipedia上训练的模型来过滤掉低质量的内容，只保留较低困惑度的文档。如此处理获得一个包含有327亿个句子的CCNet数据集。

在这项工作中，使用的挖掘方法的底层思想是，首先学习一种多语言的语义嵌入，即在一个嵌入空间中语义上相似的句子会有较近的距离，而与它们所使用的语言无关。这意味着空间中的距离可以作为两个句子是否是相互翻译的指标。