专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
目录
相关文章推荐
爱可可-爱生活  ·  [LG]《Exploring ... ·  13 小时前  
宝玉xp  ·  //@想不出昵称的Rudy:赞同,因为AI, ... ·  15 小时前  
51好读  ›  专栏  ›  机器之心

入门 | 无需双语语料库的无监督式机器翻译

机器之心  · 公众号  · AI  · 2018-01-13 13:43

正文

请到「今天看啥」查看全文



机器翻译的问题


如上所述,神经机器翻译最大的问题是需要双语语言对数据集。对于英语、法语这类广泛使用的语言来说,这类数据比较容易获取,但是对于其他语言对来说就不一定了。如能获取语言对数据,则该问题就是一个监督式任务。


解决方案


论文作者指出如何将该任务转换成无监督式任务。在该任务中,所需的唯一数据是两种语言中每种语言的任意语料库,如英语小说 vs. 西班牙语小说。注意两部小说未必一样。

也就是说,作者发现如何学习两种语言之间共同潜在空间(latent space)。


自编码器简单回顾


自编码器是用于无监督任务的神经网络的一种宽泛类别。它们可以重新创建与馈送的输入相同的输入。关键在于自编码器中间有一个层,叫作 bottleneck 层。该层可以捕捉所有输入的有趣信息,去除无用信息。


自编码器图示。中间的模块是存储压缩表征的 bottleneck 层。(图片来源:https://blog.keras.io/building-autoencoders-in-keras.html)


简言之,bottleneck 层中的输入(这里经过编码器转换)所在的空间就是潜在空间。


去噪自编码器


如果自编码器可以学会完全按照接收的馈送来重建输入,那么它或许什么都不用学了。这种情况下,输出可以被完美重建,但是 bottleneck 层中并没有有用特征。为了弥补,我们可以使用去噪自编码器。首先,向输入添加一些噪声,然后构建网络用来重建原始图像(不带噪声的版本)。用这种方式,通过让网络学习什么是噪声(以及真正有用的特征)使其学习图像的有用特征。


去噪自编码器图示。使用神经网络重建左侧图像,生成右侧图像。在此示例中,绿色的神经元就是 bottleneck 层。(图片来源:http://www.birving.com/presentations/autoencoders/index.html#/)


为什么要学习共同潜在空间?







请到「今天看啥」查看全文