专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
目录
相关文章推荐
黄建同学  ·  下半场//@未知海苔2:模型公司慢慢开始做应 ... ·  9 小时前  
机器之心  ·  AI 推理成本暴跌,「互联网女皇」 ... ·  13 小时前  
彭涛说  ·  我跟AI打了个视频电话... ·  14 小时前  
彭涛说  ·  我跟AI打了个视频电话... ·  14 小时前  
爱可可-爱生活  ·  本文提出的MesaNet通过在每个时间步执行 ... ·  22 小时前  
爱可可-爱生活  ·  晚安~ #晚安# -20250605224741 ·  2 天前  
51好读  ›  专栏  ›  机器之心

业界 | 百度提出 Deep Voice:实时的神经语音合成系统

机器之心  · 公众号  · AI  · 2017-03-01 13:47

正文

请到「今天看啥」查看全文


参与:李亚洲、蒋思源


百度研究部门最近提出了深度语音(Deep Voice)系统,该系统是一个完全由深度神经网络构建的高质量语音转文本系统。读者可点击阅读原文下载此论文。


百度研究部门最近提出了深度语音(Deep Voice)系统,该系统是一个完全由深度神经网络构建的高质量语音转文本系统。而如今建立这样一个系统最大的障碍就是音频合成的速度,因为以前的方法需要花几分钟到几小时来生成仅仅几秒钟的语音。我们致力于解决该难题,并且已经做到了实时的语音合成,这相比以前的 WaveNet 推理的实现有 400 倍的加速。


从文本合成人工语音,也就是我们所熟知的文本转语音(TTS),在许多的应用中都是非常重要的组件,比如语音设备、导航系统和对视力障碍人群的辅助应用。从基础上,它使得人类在不需要视觉界面的情况下能与科技进行交互。


现代 TTS 系统主要基于复杂的、多阶段处理流程(pipeline),每个都依赖人工调配的特征参数以及启发式规则。由于这种复杂性,开发新的 TTS 系统需要大量的人力,也非常的困难。








请到「今天看啥」查看全文