正文
微软和阿里先后于 1 月 3 日 和 1 月 5 日在 SQuAD 官方平台提交模型,但阿里的结果在 1 月 11 日先于微软产出并被公布,微软的结果在 1 月 12 日紧随其后发布。
阿里发布结果后,主办方斯坦福向阿里发了贺信,表彰其机器阅读理解系统首次超越人类。微软结果发布后,鉴于双方在更细分维度上的评测结果各有千秋,官方给出了排名并列第一的说法。
机器阅读理解的评测维度分为 EM(Exact Match,精准匹配分数)和 F1(精确率和召回率的平均,模糊匹配分数)。
下图可见,阿里巴巴在 F1 分数上略胜一筹,微软的 EM 分数优于阿里巴巴。无论如何,我们可以欣喜地看到包括阿里,微软亚洲研究院,腾讯,哈工大和讯飞等中国的研究人员走在了世界的前列。
抛开「谁是第一」事件本身,机器之心采访到此次破纪录的阿里巴巴 iDST NLP 团队,希望回归技术,对其模型进行解读。
机器阅读理解作为 QA 问答技术中的全新领域,允许用户输入非结构化文本及问题,机器在阅读理解基础上,从文本中寻找答案回答用户问题。
对于阿里巴巴来说,机器阅读理解技术的最直接应用就是阿里小蜜现在能直接阅读说明书回答用户问题了。
本次阿里巴巴参与测评的系统名为 SLQA,即 SLQA,即 Semantic Learning for Question Answering,是 iDST NLP 团队提出的「基于分层融合注意力机制」的深度神经网络系统。评测证明,相比传统方法,SLQA 的效果取得了显著的提升。
采用传统方法解决机器阅读理解问题,一般会将该过程分为以下几个步骤:
1)对问题、篇章分别进行词法、句法分析,针对分析结果进行特征提取:
2)基于特征采用诸如 LR、CRF 等模型进行答案边界预测;
3)采用梯度下降类算法在训练集上进行优化,拟合数据分布。
在此过程中,基础语言模型、依存分析等模块的准确率在一定程度上会影响训练效果,特征工程的优劣也同样左右着是否能训练得到可用的模型。
随着深度学习在 NLP 领域的大量应用,很多场景如切词、词性标注、翻译、命名实体识别等 End2End 模型逐渐取得接近并超越传统模型的效果。在机器阅读理解场景,iDST NLP 团队设计了 Semantic Learning Net,即 SLQA 背后的算法模型。