专栏名称: AI科技评论
「AI科技评论」是国内顶尖人工智能媒体和产业服务平台,专注全球 AI 业界、学术和开发三大方向的深度报道。
目录
相关文章推荐
51好读  ›  专栏  ›  AI科技评论

Facebook开源最大规模并行语料,45亿语料,覆盖576种语言对,或成为NMT评估标准

AI科技评论  · 公众号  · AI  · 2020-02-07 14:34

正文

请到「今天看啥」查看全文


以上这些,从数据来源上讲都有局限。为了使并行语料库量大、覆盖主题广泛,Facebook在CCMatrix这项工作中,选择使用了随机抓取web中的数据作为并行语料的来源,他们每个月随机发送url,从而获得包含各种语言的网页快照(TB级)。
十次快照语料中,不同语言的单句数量(其中一次快照只包含英语)
然后通过预处理去除高达70%的重复数据(例如模板文件、导航菜单、cookie等),并使用fastText(语言识别器,可以识别176种语言)来识别文档中的语言,最后使用一个在Wikipedia上训练的模型来过滤掉低质量的内容,只保留较低困惑度的文档。如此处理获得一个包含有327亿个句子的CCNet数据集。
在这项工作中,使用的挖掘方法的底层思想是,首先学习一种多语言的语义嵌入,即在一个嵌入空间中语义上相似的句子会有较近的距离,而与它们所使用的语言无关。这意味着空间中的距离可以作为两个句子是否是相互翻译的指标。
用于大规模训练多语言句嵌入的框架
不过由于余弦距离的绝对阈值在全局上并不一致,所以Schwenk在这里所采用的是Margin criterion:






请到「今天看啥」查看全文