专栏名称: DeepTech深科技

“DeepTech深科技”是与麻省理工科技评论官方独家合作的一个新科技内容品牌。我们专注于关注三个方面：1、基于科学的发现；2、真正的科技创新；3、深科技应用的创新。

通过对人类语言的原始波形进行直接建模，谷歌DeepMind意图改变语音合成的方式

DeepTech深科技 · 公众号 · 科技媒体 · 2016-12-20 23:55

正文

通过对人类语言的原始波形进行直接建模 ， DeepMind正在改变语音合成的方式。在WaveNet平台上，这一先进的方法可以合成任意类型的语音，甚至包括音乐。下面就是通过语音拼接技术和WaveNet语音合成的例子， 可以感受一下语音品质。

其实，将人类语音的原始波形进行直接建模成波形是件无比困难的工作， 这对于机器学习而言，无疑是个巨大的挑战。

在建模的过程中，每秒都需要对下一时刻做上千个预测，而大多数预测都是基于前期的结果。DeepMind利用神经网络技术，并用人类语音波形对其进行训练，在下面的GIF动画中， 你可以看到多层计算网络来估计语音概率分布，进而得出最终输出音频。

多层计算网络来估计语音概率分布

通过对输出音频的比较，DeepMind团队发现， WaveNet产生的音频比其他方法得到的合成语音更加逼真。 甚至对于WaveNet来说，即使没有输入文本，神经网络也能得到相应的输出音频。

只不过，这时你听到的是机器的牙牙学语，听起来就像是一个人在说你从未听过的语言。这时，如果你使用古典钢琴曲而不是人声来训练， 这种机器的“咕噜”声就会变成狂乱但是有趣的音乐片段。

每一秒的音频输出都需要做上千次的预测

在DeepMind官方网站： https://deepmind.com/blog/wavenet-generative-model-raw-audio/ ， 你还能听到更多的合成语音和音乐样本。未来几年后，这些将是机器语言走向人性化的基础。

推荐文章

投资者的进化 · Google CEO桑达尔·皮查伊：AI发展的下一个阶段

18 小时前

DataFunTalk · 对话被引数 3 万+论文作者：AI视频的未来属于自回归

昨天

DataFunTalk · 对话被引数 3 万+论文作者：AI视频的未来属于自回归

昨天

新浪科技 · 【#央行公布最新官方储备资产数据# ！#囤黄金仍是大方向#】最新-20250607220053

昨天

新浪科技 · 【存5万元送一个盲盒，银行也靠LABUBU拉存款】#银行存5万送-20250607193356

2 天前

新浪科技 · 【#雷军第51次健身房打卡#】@雷军发文称：6月7日，周六。健-20250607080557

2 天前

i黑马 · 获2000万元A轮融资这家烤肉饭何以在资本寒冬里逆生长？|每日黑马

8 年前

笑的合不拢嘴 · 这首歌，不上春晚也会火！

8 年前

小腹基 · 在这个看脸的世界，有一个好身材绝对是加分项~

8 年前

格斗迷 · 今天史上最狠两个人都怂了！其中一个被打跪！

8 年前

法询金融固收组 · 债券信用评级操作大全

8 年前