专栏名称: AI科技评论
「AI科技评论」是国内顶尖人工智能媒体和产业服务平台,专注全球 AI 业界、学术和开发三大方向的深度报道。
目录
相关文章推荐
云技术  ·  20万元,DeepSeek系统硬件及AI服务 ... ·  20 小时前  
云技术  ·  20万元,DeepSeek系统硬件及AI服务 ... ·  20 小时前  
爱可可-爱生活  ·  《爱可可微博热门分享(6.5)》 ... ·  昨天  
爱可可-爱生活  ·  晚安~ #晚安# -20250605224741 ·  昨天  
爱可可-爱生活  ·  【[36星]ncnn-android-ppo ... ·  2 天前  
财联社AI daily  ·  Anthropic:成熟的AI该学着自己写博客了 ·  2 天前  
财联社AI daily  ·  Anthropic:成熟的AI该学着自己写博客了 ·  2 天前  
51好读  ›  专栏  ›  AI科技评论

学界 | 谷歌团队提出应用于噪声语音识别的在线序列到序列模型

AI科技评论  · 公众号  · AI  · 2017-06-25 21:58

正文

请到「今天看啥」查看全文


全球人工智能与机器人峰会 GAIR 2017 ,一 同见证 AI 浪潮之巅!峰会抢票火热进行中。

今天特放出 直减 700 元的无条件优惠码 (见文末,优惠幅度逐天减小),感谢各位读者对雷锋网的支持,打开链接即可使用。

近日谷歌团队发布了一篇关于语音识别的在线序列到序列模型,该模型可以实现在线实时的语音识别功能,并且对来自不同扬声器的声音具有识别功能。

以下内容是 AI 科技评论根据论文内容进行的部分编译。

论文摘要:生成模型一直是语音识别的主要方法。然而,这些模型的成功依赖于难以被非职业者使用的复杂方法。最近,深入学习方面的最新创新已经产生了一种替代的识别模型,称为序列到序列模型。这种模型几乎可以匹配最先进的生成模型的准确性。该模型在机器翻译,语音识别,图像标题生成等方面取得了相当大的经验成果。尽管这些模型易于训练,因为它们可以在一个步骤中端对端进行培训,但它们在实践中具有限制,即只能用于离线识别。这是因为该模型要求在一段话开始时就可以使用输入序列的整体,这对实时语音识别等任务来说是没有任何意义的。

图. 1:本文使用的模型的总体架构

为了解决这个问题,谷歌团队最近引入了在线序列模型。这种在线序列模型具有将产生的输出作为输入的属性,同时还可以保留序列到序列模型的因果性质。这些模型,如序列到序列是因果关系 - 模型在任何时间t产生的输出将会影响随后计算的特征。该模型使用二进制随机变量来选择产生输出的时间步长。该团队将这个模型称为神经自回归传感器(NAT)。随机变量用策略梯度法进行训练。使用修改的培训方法来提高培训结果。







请到「今天看啥」查看全文