业界 | 百度提出 Deep Voice：实时的神经语音合成系统

机器之心 · 公众号 · AI · 2017-03-01 13:47

正文

请到「今天看啥」查看全文

参与：李亚洲、蒋思源

百度研究部门最近提出了深度语音（Deep Voice）系统，该系统是一个完全由深度神经网络构建的高质量语音转文本系统。读者可点击阅读原文下载此论文。

百度研究部门最近提出了深度语音（Deep Voice）系统，该系统是一个完全由深度神经网络构建的高质量语音转文本系统。而如今建立这样一个系统最大的障碍就是音频合成的速度，因为以前的方法需要花几分钟到几小时来生成仅仅几秒钟的语音。我们致力于解决该难题，并且已经做到了实时的语音合成，这相比以前的 WaveNet 推理的实现有 400 倍的加速。

从文本合成人工语音，也就是我们所熟知的文本转语音（TTS），在许多的应用中都是非常重要的组件，比如语音设备、导航系统和对视力障碍人群的辅助应用。从基础上，它使得人类在不需要视觉界面的情况下能与科技进行交互。

现代 TTS 系统主要基于复杂的、多阶段处理流程（pipeline)，每个都依赖人工调配的特征参数以及启发式规则。由于这种复杂性，开发新的 TTS 系统需要大量的人力，也非常的困难。