专栏名称: 人工智能学家
致力成为权威的人工智能科技媒体和前沿科技研究机构
目录
相关文章推荐
黄建同学  ·  What is an AI ... ·  12 小时前  
新机器视觉  ·  图像处理单元(GPU)的简述 ·  昨天  
爱可可-爱生活  ·  【[74星]Awesome-LLM-Powe ... ·  昨天  
机器之心  ·  最新!Ilya现身多大毕业演讲:AI会完成我 ... ·  2 天前  
51好读  ›  专栏  ›  人工智能学家

Facebook最新对抗学习研究:无需「平行语料库」完成「无监督」机器翻译

人工智能学家  · 公众号  · AI  · 2017-11-05 19:13

正文

请到「今天看啥」查看全文



相信大家都知道,最近在机器翻译领域取得了令人印象深刻的成果,而这主要归功于最近在深度学习方面所取得巨大进步,以及大规模平行语料库(large-scale parallel corpora)的可用性。我们已经进行过无数次尝试,试图将这些成功扩展到低资源语言对,但这需要数以万计的并行句子。在这项研究中,我们把这个研究方向做到了极致,并研究了在没有任何平行数据的情况下,是否有可能学习翻译?我们提出构建一种模型,它用两种不同的语言从单语语料库(monolingual corpora)中提取句子,然后将它们映射到相同的潜在空间中。通过学习从这个共享的特征空间中以两种语言进行重构,该模型有效地学习了在不使用任何标记数据的情况下进行翻译。我们在两个广泛使用的数据集和两个语言对上对模型进行演示,结果显示,BLEU分数高达32.8,而在在训练期间甚至没有使用一个平行句。


得益于最近在深度学习方面取得的进展以及大规模平行语料库的可用性,现如今,机器翻译已经在多个语言对上取得了令人印象深刻的表现。然而,这些模型只有在提供大量的并行数据,即大约数百万个并行句子的情况下,才能很好地运行。不幸的是,并行语料库的构建成本是非常高的,因为这需要专门的专业知识,而且通常对于低资源语言来说是不可能的。相反,单语数据更容易找得到,而且许多具有有限并行数据的语言仍然拥有大量的单语数据。








请到「今天看啥」查看全文