专栏名称: DeepTech深科技
“DeepTech深科技”是与麻省理工科技评论官方独家合作的一个新科技内容品牌。我们专注于关注三个方面:1、基于科学的发现;2、真正的科技创新;3、深科技应用的创新。
目录
相关文章推荐
投资者的进化  ·  Google ... ·  18 小时前  
DataFunTalk  ·  对话被引数 3 ... ·  昨天  
DataFunTalk  ·  对话被引数 3 ... ·  昨天  
新浪科技  ·  【#央行公布最新官方储备资产数据# ... ·  昨天  
新浪科技  ·  【存5万元送一个盲盒,银行也靠LABUBU拉 ... ·  2 天前  
新浪科技  ·  【#雷军第51次健身房打卡#】@雷军 ... ·  2 天前  
51好读  ›  专栏  ›  DeepTech深科技

通过对人类语言的原始波形进行直接建模,谷歌DeepMind意图改变语音合成的方式

DeepTech深科技  · 公众号  · 科技媒体  · 2016-12-20 23:55

正文

请到「今天看啥」查看全文


通过对人类语言的原始波形进行直接建模 DeepMind正在改变语音合成的方式。在WaveNet平台上,这一先进的方法可以合成任意类型的语音,甚至包括音乐。下面就是通过语音拼接技术和WaveNet语音合成的例子, 可以感受一下语音品质。



其实,将人类语音的原始波形进行直接建模成波形是件无比困难的工作, 这对于机器学习而言,无疑是个巨大的挑战。


在建模的过程中,每秒都需要对下一时刻做上千个预测,而大多数预测都是基于前期的结果。DeepMind利用神经网络技术,并用人类语音波形对其进行训练,在下面的GIF动画中, 你可以看到多层计算网络来估计语音概率分布,进而得出最终输出音频。



多层计算网络来估计语音概率分布


通过对输出音频的比较,DeepMind团队发现, WaveNet产生的音频比其他方法得到的合成语音更加逼真。 甚至对于WaveNet来说,即使没有输入文本,神经网络也能得到相应的输出音频。


只不过,这时你听到的是机器的牙牙学语,听起来就像是一个人在说你从未听过的语言。这时,如果你使用古典钢琴曲而不是人声来训练, 这种机器的“咕噜”声就会变成狂乱但是有趣的音乐片段。



每一秒的音频输出都需要做上千次的预测


在DeepMind官方网站: https://deepmind.com/blog/wavenet-generative-model-raw-audio/ 你还能听到更多的合成语音和音乐样本。未来几年后,这些将是机器语言走向人性化的基础。







请到「今天看啥」查看全文