专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
目录
相关文章推荐
51好读  ›  专栏  ›  机器之心

资源 | 谷歌发布用于有监督词义消歧的大型语料库

机器之心  · 公众号  · AI  · 2017-01-19 11:05

正文

请到「今天看啥」查看全文



理解特定单词在文本中的各种意思是理解语言的关键。比如,句子「he will receive stock in the reorganized company」中,根据新牛津美语词典(NOAD),我们依据上下文可以知道「stock」是指「公司企业通过发行和认购股份筹措到的资金」。但是,词典中,从「存货(goods in a store) 到「一种中世纪刑具」,stock 的定义有十多个。计算机算法很难区分这些意思,过去,人们形容这一问题难度「与解决强人工智能核心问题的难度不相上下(AI-complete)」(Navigli, 2009 Mallery 1988 )。


为了帮助解决这个难题,我们很高兴发布了基于流行的 MASC 和 SemCor 数据组的词义标注,人工标注了 NOAD 的各种词义。我们也在发布 NOAD 词义到 English Wordnet 的映射,研究社区更常用到这个。这是最大的全词义标注英文语料库发布之一。


发布地址:https://github.com/dmorr-google/word_sense_disambigation_corpora


有监督的词义消歧


人类能很容易分辨出文本词义之间区别的原因是人类能接触大量常识性知识。这些常识包含世界如何运转及其与语言之间的联系。举一个机器理解困难的例子,「[stock] in a business」(在一单生意里的 stock)意味着意思与金融相关。但是,在「[stock] in a bodega」(酒窖里的 stock)中,更可能是货架上的货物,尽管酒窖(bodega)也是一种生意。获取足够的机器可加利用的知识,然后将这些知识运用到文本词义理解上是一种挑战。


有监督的词义消歧(WSD)也即运用人标记的数据来构建一个机器学习系统,这个机器学习系统能够将词典里的某个意思分配给出现在文本中的这个单词(与实体歧义消除不同,后者关注的是名词,对名词的词义理解大多是正确的)。构建一个比不考虑文本语境,仅将单词最常用的意思分配给单词的监督模型更好的模型,很困难,但是,有了大量训练数据,有监督的模型会表现非常好。







请到「今天看啥」查看全文