专栏名称: PaperWeekly
PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区:http://paperweek.ly | 微博:@PaperWeekly
目录
相关文章推荐
研之成理  ·  大连化物所刘岳峰团队Nat. ... ·  2 天前  
环球科学科研圈  ·  颠覆物理学!科学家成功让球体沿垂直表面自发滚 ... ·  2 天前  
募格学术  ·  官方回复:211异地校区,更名! ·  2 天前  
研之成理  ·  魔角石墨烯,Nature Materials! ·  4 天前  
51好读  ›  专栏  ›  PaperWeekly

跨语言之间的对抗博弈,该如何演绎?| 论文访谈间 #08

PaperWeekly  · 公众号  · 科研  · 2017-06-16 15:19

正文

请到「今天看啥」查看全文



众所周知,词是构成语言的基本单元,词表示方法的改进对很多自然语言处理任务产生了显著影响,词向量(word embedding)因其能够获取语言中的规律而被广泛使用。前人的工作发现利用两种语言的单语语料训练的词向量空间存在近似同态性(如图 1 所示),因而可以使用一个线性映射把这两个向量空间联系起来。那么如何得到这个线性映射呢?在前人的工作中,往往需要使用大量种子翻译词对作为监督信号来学习这个线性映射,而这篇论文则是要针对完全不使用任何双语监督信号的场景,作者需要设计方法来对联系两个向量空间的线性映射进行有效学习,这是本文工作中最大的研究挑战。


图 1: 西班牙语和英语 的词向量空间表现出的近似同态性


这篇论文中的方法灵感来自于当前机器学习领域大热的生成对抗网络(GAN),作者针对本文任务设计了生成器 G 和鉴别器 D 之间的对抗游戏,其基本形式如图 2(a) 所示(unidirectional transformation model)。图中,方块代表源语言词向量,圆点代表目标语言词向量。源语言词向量通过 G 映射到目标语言的词向量空间后,如果鉴别器 D 无法分辨出映射过来的词向量与原本属于目标语言的词向量,则说明映射 G 成功把两种语言的词向量空间联系起来了,如果 D 能够分辨,则 D 可以指导 G 如何改善。G 和 D 这种互相竞争、共同进步的关系使得本文的方法不依赖种子双语词典。








请到「今天看啥」查看全文