专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
目录
相关文章推荐
宝玉xp  ·  #CluadeCode ... ·  16 小时前  
爱可可-爱生活  ·  本文开创性地提出了“嫁接”(grafting ... ·  昨天  
爱可可-爱生活  ·  【[170星]cloudflare/ai-u ... ·  2 天前  
51好读  ›  专栏  ›  新智元

【专访微软黄学东】0.1%,0.2%与0.3%,语音识别军备竞赛中小数点差距有何意义

新智元  · 公众号  · AI  · 2017-09-13 06:04

正文

请到「今天看啥」查看全文


“去年10月,在我们的转录系统达到5.9%的错误率之后,其他研究人员也进行了自己的研究,采用了更多参与的多转录程序,将错误率降低至5.1%。这是一个新的行业里程碑,大大超过了去年实现的准确性。”



5.1%是一项了不起的研究成果


需要说明的是,黄学东院士这个“语音识别错误率低于5.1%”的成果是建立在Switchboard这个通用数据集上面的。按照黄学东的介绍,这是一个全球语音研究人员用了20多年的开放数据集,包括了大约2400个自然情形下的对话,甚至是各种年龄阶段、覆盖了美国主要的一些地方口语。因此,很多不同的技术公司与组织都喜欢在上面做语音方面的相关研究。


而根据黄学东的介绍,其带领的微软语音识别团队又为改进语音模型引入了 CNN-BLSTM(convolutional neural network combined with bidirectional long-short-term memory)。另外, 他们在 frame/senone 和词语层面都使用了结合多个声学模型的预测的方法,通过使用整个对话过程来加强识别器的语言模型,以预测接下来可能发生的事情,使得模型有效地适应了对话的话题和语境。


同时,其团队也使用了最可扩展的深度学习软件Microsoft Cognitive Toolkit 2.1(CNTK),用于探索模型架构和优化模型的超参数。



当然,微软对云计算基础设施(特别是Azure GPU)的大量投资,也有助于提高其训练模型并测试新想法的有效性和速度。


不过,虽然5.1%虽然是黄学东口中“前所未有的成果”,但IBM也同样宣布自己测出过差不多的好成绩——5.5%的语音识别错误率(也是Switchboard数据集)。

IBM和微软两家公司在测试人能够达到什么样的错误率存在着一定的差异——IBM是通过4个不同团队不断听一句话讨论后得出的最好结果是5.1%,也就是“4个团队协同工作=5.1%”,而微软在去年测试一个团队人可达到的错误率是5.9%。







请到「今天看啥」查看全文