专栏名称: 新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

【专访微软黄学东】0.1%，0.2%与0.3%，语音识别军备竞赛中小数点差距有何意义

新智元 · 公众号 · AI · 2017-09-13 06:04

正文

请到「今天看啥」查看全文

“去年10月，在我们的转录系统达到5.9％的错误率之后，其他研究人员也进行了自己的研究，采用了更多参与的多转录程序，将错误率降低至5.1%。这是一个新的行业里程碑，大大超过了去年实现的准确性。”

5.1%是一项了不起的研究成果

需要说明的是，黄学东院士这个“语音识别错误率低于5.1%”的成果是建立在Switchboard这个通用数据集上面的。按照黄学东的介绍，这是一个全球语音研究人员用了20多年的开放数据集，包括了大约2400个自然情形下的对话，甚至是各种年龄阶段、覆盖了美国主要的一些地方口语。因此，很多不同的技术公司与组织都喜欢在上面做语音方面的相关研究。

而根据黄学东的介绍，其带领的微软语音识别团队又为改进语音模型引入了 CNN-BLSTM（convolutional neural network combined with bidirectional long-short-term memory）。另外，他们在 frame/senone 和词语层面都使用了结合多个声学模型的预测的方法，通过使用整个对话过程来加强识别器的语言模型，以预测接下来可能发生的事情，使得模型有效地适应了对话的话题和语境。

同时，其团队也使用了最可扩展的深度学习软件Microsoft Cognitive Toolkit 2.1（CNTK），用于探索模型架构和优化模型的超参数。