专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
目录
相关文章推荐
爱可可-爱生活  ·  本文从自由能原理(FEP)出发,在不预设学习 ... ·  昨天  
爱可可-爱生活  ·  [LG]《Understanding ... ·  昨天  
爱可可-爱生活  ·  【[38星]StanfordASL/oscb ... ·  2 天前  
AI工程化  ·  新战场!Google 低调发布手机运行 ... ·  2 天前  
爱可可-爱生活  ·  【[2k星]n8n-workflows:一站 ... ·  2 天前  
51好读  ›  专栏  ›  机器之心

专访 | 微软全球技术院士黄学东:「超人」语音识别模型只是优秀产品的其中一环

机器之心  · 公众号  · AI  · 2017-09-28 13:41

正文

请到「今天看啥」查看全文




我们跑了一千多个实验,评估了上百个不同的模型,几乎把所有的排列组合试了一遍,可以说是「粒粒皆辛苦」了。

模型效果的进步来自以下几个方面:一是语音模型方面,以前我们虽然同时用到 Bi-LSTM 和 ResNet,但是模型间是完全独立、彼此并行的。现在我们把 CNN 和 Bi-LSTM 串联为一个模型,通过三层卷积操作提取底层的特征,然后再用 六层 Bi-LSTM 学习特征之间的序列依赖关系。二是在语言模型方面,模型从词级别进一步细化到字符级别,并且利用了整个对话的全局信息以及其中的语段(session)局部信息。三是在不同模型相结合方面,我们利用了不同的信号,这有点像提升决策树和随机森林算法的理念,信号是最基本的子语单元音(subphonetic senone),不同信号的引入让系统更加鲁棒。




5.9% 的次错率是人类专业速记员的水平,那么 5.1% 呢?是否可以说语音识别问题已经基本解决了?

语音识别作为一个整体还远没有解决,在 Switchboard 上可以说是解决了。5.1% 是什么概念呢:IBM在澳洲找了4个专业转录团队,他们可以比较、讨论、重听,四个团队一起工作的最好结果可以做到 5.1%。所以说,我们的系统做到5.1%,我觉得是达到了「超人」的水平。但是这只是在 Switchboard 这个任务上。

真正的语音识别有口音、噪音、远场、语速等等问题,在这些方面,人的鲁棒性还是不同一般的。所以我们在这个任务上达到了「超人」的水平只是一个小小的里程碑。今年我们的系统比去年增加了四个更加强大的神经网络、有了比去年更强大的语言模型,但是模型还不是即时的,因此距离投入实际应用还有一定的距离。然而就像现在生物学家寻找治疗癌症的药物的过程一样,我们要不惜代价去寻找更好的靶点。这就是为什么我们仍然在追求 WER 更低的系统。但我觉得今后几年语音识别普遍达到超人水平应该不是一个关键问题。

那么关键问题会是哪些任务?

语言理解,理解那些在交流过程中还没有用语言表达出来的意思。在感知方面,今后几年计算机可以达到人的水平,然而在认知上,人可以通过上下文以及额外的手势和眼神等信息对说话人的意思有比较透彻的理解,计算机在这方面差距还是很大的。

另外现在的系统还是非常的复杂,语音部分就有14个神经网络并行运作,要整合起来,再把语言模型加上去,再做整合…… 系统还是需要做非常多简化。

您在加入微软之前也曾参与过 CMU 的语音系统开发,高校和企业的研究团队在开发语音系统时有什么异同?







请到「今天看啥」查看全文