正文
https://github.com/facebookresearch/fairseq
论文地址:https://s3.amazonaws.com/fairseq/papers/convolutional-sequence-to-sequence-learning.pdf
Facebook的使命是让世界更开放、连接全世界,所以,语言的翻译对他们来说至关重要,这一技术能让每一个人都能用自己喜欢的语言来浏览帖子或视频。
今天,Facebook AI 研究 (FAIR)团队发布了一项使用创新性的、基于卷积神经网络的方法来进行语言翻译的最新成果。Facebook 称,该研究取得了截止目前最高准确度,并且速度是基于循环神经网络(RNN)系统的9倍(谷歌的机器翻译系统使用的就是这一技术)。
此外,FAIR 所推出的序列建模工具包 ( fairseq)的源代码和训练好的系统已经在Github上开源,感兴趣的研究者可以基于此定制用于翻译、文本摘要和其他任务的模型。
几十年前,Yann LeCun 对CNN 进行了开创性的发展,自那以后,CNN在许多机器学习领域,比如图像的处理上获得了巨大的成功。但是,循环神经网络一直都是文本类应用的常用的技术,并且,由于其极高的准度,它也成为了语言翻译的首选。
虽然在语言翻译的任务中,从历史上看,RNN 的表现都要优于CNN。但是,这一模型的设计有其固有的缺陷。如果你去观察它们是如何处理信息的,你就能理解这种缺陷。计算机是通过阅读一种语言中国的一个句子然后预测出另一种语言中带有相同含义的一系列词语,来进行文本的翻译。
RNN 遵循一种严格的“从左至右”或者“从右至左”的顺序,每次处理一个单词。这与现代的、由高并行的GPU硬件支撑的机器学习匹配起来并不那么自然。
具体说来,计算本身不能够被完全的并行(parallelized),因为每一个单词必须等到神经网络处理完前一个单词才能被处理。作为对比,CNN 能够同时处理所有的元素,完全利用GPU 并行计算的优势。进而,CNN在计算上的效率也会更高。CNN 的另一个优势是,信息的处理是分层次的( hierarchically),这能让它更容易地捕捉到数据中的复杂关系。
在此前的研究中,把CNN用于翻译,性能上一直都没能超越RNN。但是,由于CNN 在架构上的潜力,FAIR 开始了一系列相关研究,开发出一系列用于翻译的模型,展示了CNN在翻译上的强大性能。CNN在计算上的效率优势也有潜力被扩展到翻译上,覆盖世界上6500种语言。
Facebook 在官方博客中称,他们的技术在机器翻译峰会(WMT)所提供的公共基准数据集上,相比RNNs2,取得了新的最高水准。特别是,基于CNN 的模型准确度也超越了被用于评判机器翻译准确度的业界广泛认可的数据集WMT2014 英语-法语翻译任务中的历史记录 1.5 BLEU。在 WMT 2014 英语-德语的翻译中,提升是0.4 BLEU,WMT 2016英语-罗马尼亚语,提升到1.8BLEU。
基于神经网络的机器翻译技术要用于实践,其中的一个考虑的要素是,在我们把一句话输入系统以后,需要花多长时间,才能获得相应的翻译。 FAIR 的 CNN 模型在计算上是非常高效的,比企鹅比最强的RNN系统要快9倍。有很多的研究一直的着眼于如何通过量化权重或者精馏(distillation)的来提升速度,这些方法同样也能被用到CNN的模型中,来提升速度,甚至还能提升更多。这意味着,CNN 有着巨大的潜力。