业界 | Quora 第一个开放数据集：相似问题对构建语义理解

机器之心 · 公众号 · AI · 2017-01-25 12:24

正文

请到「今天看啥」查看全文

参与：蒋思源、朱思颖

Quora开放了第一个数据集，希望通过这40万行的问题对整合相同提问成同一页面，促进自然语言的语义理解，自动识别与整合，加强知识共享平台的建设。

今天我们很高兴地宣布过去计划发布的一系列公开数据集中的第一个成功开放。我们开放的数据集将面向与 Quora 相关的各种问题，并且旨在帮助在机器学习、自然语言处理、神经网络科学等领域的研究人员能够自行构建可扩展性的在线知识分享平台。我们第一个数据集与识别重复性问题相关。

Quora 一个重要的产品原则，即每一个逻辑独立的问题应该只需要一个单独的问题页面。简单地说，如询问「美国哪一个州人口最多？」和「在美国人最多的州是哪个？」，这两个问题不应该在 Quora 单独地存在，因为两个问题所要表达的意图是完全相同的。如果每一个页面都是一个逻辑独立的问题，那么就能在很多方面上让知识分享更加地高效。如知识查询者可以在一个位置查看问题的所有答案，并且如果读者群体因为不同的页面而分割，那么回答问题的作者可以获得更高的阅读量。