专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
目录
相关文章推荐
硅基流动  ·  硅基流动完成新一轮数亿元融资 ·  22 小时前  
硅基流动  ·  硅基流动完成新一轮数亿元融资 ·  22 小时前  
AI产品阿颖  ·  别再吃轻视AI的亏。 ·  23 小时前  
宝玉xp  ·  转发微博-20250608041541 ·  2 天前  
爱可可-爱生活  ·  【[137星]adb-mcp:为Adobe工 ... ·  2 天前  
51好读  ›  专栏  ›  机器之心

专栏 | 腾讯音视频实验室Interspeech 2017论文:单通道语音分离中应用深度神经网络的训...

机器之心  · 公众号  · AI  · 2017-08-23 12:52

正文

请到「今天看啥」查看全文



Interspeech 是由国际语音通信协会 ISCA(International Speech Communication Association)组织的语音研究领域的顶级会议之一,是全球最大的综合性语音信号处理领域的科技盛会,该会议每年举办一次,每次都会吸引全球语音信号领域以及人工智能领域知名学者、企业以及研发人员参加。


腾讯音视频实验室王燕南博士的论文《A Maximum Likelihood Approach to Deep Neural Network Based Nonlinear Spectral Mapping for Single-Channel Speech Separation》入选 Interspeech 2017,并受邀在会场进行了 oral 报告。


燕南 博士的论文主要内容是研究在单通道语音分离中应用的深度神经网络的训练优化,该技术旨在从混合的多个说话人的语音信号中分离出目标说话人的语音,在语音识别、语音通话以及残疾人助听领域等均具有重要应用。


瑞典当地时间 8 月 22 日下午两点半,在 Interspeech 2017 会场,王博士做 oral 报告。


在这篇论文中,王博士的研究着重于改进单通道语音分离汇总基于深度神经网络的频谱映射方法中常用的最小均方误差准则(MMSE, minimum mean squared error)。在基于深度神经网络的单通道语音分离中,通过多类回归方法从混合语音频谱中恢复目标说话人的语音,主要是基于 MMSE 准则最小化网络输出的语音频谱和目标频谱的差异。对此,王博士等人通过对深度神经网络的输出的预测错误进行统计分析,发现输出的对数功率谱每一维分量都服从一个单峰分布,如下图所示:








请到「今天看啥」查看全文