专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
目录
相关文章推荐
中新经纬  ·  机器人之后,荣耀不止于智能手机制造 ·  9 小时前  
中新经纬  ·  机器人之后,荣耀不止于智能手机制造 ·  9 小时前  
宝玉xp  ·  AI创业圈震惊!15亿美元“AI独角兽”翻车 ... ·  21 小时前  
新智元  ·  爆火AI编程Windsurf突遭Claude ... ·  昨天  
爱可可-爱生活  ·  【[2.4k星]Forge:AI增强型终端开 ... ·  昨天  
量子位  ·  训练MoE足足提速70%!华为只用了3招 ·  2 天前  
51好读  ›  专栏  ›  机器之心

学界 | 谷歌联合英伟达重磅论文:实现语音到文本的跨语言转录

机器之心  · 公众号  · AI  · 2017-03-29 13:58

正文

请到「今天看啥」查看全文



论文地址:https://arxiv.org/abs/1703.08581

摘要:


我们提出了一种循环编码器-解码器深度神经网络(recurrent encoder-decoder deep neural network)架构,该架构能将一种语言的语音直接转换为另一种语言的文本。模型并不会明确地将源语言语音转换为源语言文本,也不需要在训练过程中使用源语言转录的 ground truth 作为监督。我们在以前用于语音识别的带有注意架构(attention architecture)序列到序列(sequence-to-sequence)模型上进行了一些修改,并表明了其能处理这种更复杂的任务,证实了基于注意的模型的强大。一个端到端训练的单一模型在 Fisher Callhome 西班牙语-英语的语音翻译任务中达到了当前最高水平,在 Fisher 测试集上超过了一系列级联的单独训练的序列到序列语音识别和机器翻译模型 1.8 BLEU 分。另外,我们发现通过使用一个共享编码器网络来多任务训练序列到序列的语音翻译和识别模型,能让我们同时利用两种语言的训练数据,并能将表现进一步提升 1.4 BLEU 分。


3. 序列到序列模型


我们使用了一种类似于 [1] 中所描述的带有注意架构的序列到序列模型。该模型由 3 个联合训练的神经网络构成:一个循环编码器,其可以将一个输入特征帧的序列 x1...T 转换成一个隐藏激活序列 h1...T,可以选择一个较慢的时间尺度:



这整个被编码的输入序列 h1...T 然后被一个解码器网络消费,并输出一个输出 token 的序列 y1...K,这是通过下一步预测完成的,即:根据之前的时间步骤所输出的 token 和整个编码的输入序列,在每一步输出一个输出 token(比如词或字符):



这个 dec 函数被实现成了一个堆叠的循环神经网络,有 D 层,其可被展开为以下形式:








请到「今天看啥」查看全文