专栏名称: 机器学习研究会
机器学习研究会是北京大学大数据与机器学习创新中心旗下的学生组织,旨在构建一个机器学习从事者交流的平台。除了及时分享领域资讯外,协会还会举办各种业界巨头/学术神牛讲座、学术大牛沙龙分享会、real data 创新竞赛等活动。
目录
相关文章推荐
宝玉xp  ·  //@地才卷大葱:Awesome ... ·  20 小时前  
机器之心  ·  「倒计时3天」2025 ... ·  昨天  
人工智能产业链union  ·  【AI加油站】第十五部:《大模型基础 ... ·  2 天前  
人工智能产业链union  ·  【AI加油站】第十五部:《大模型基础 ... ·  2 天前  
人工智能那点事  ·  涨粉速度获世界纪录认证仅次刘德华!韦东奕:舆 ... ·  2 天前  
爱可可-爱生活  ·  《爱可可微博热门分享(6.11)》 ... ·  2 天前  
51好读  ›  专栏  ›  机器学习研究会

【学习】浅谈知识图谱数据管理

机器学习研究会  · 公众号  · AI  · 2017-03-08 18:57

正文

请到「今天看啥」查看全文


1

知识图谱的数据模型

“知识图谱”这个名词活跃是由于2012年5月16日Google启动的“Knowledge Graph”(知识图谱)项目。目前知识图谱普遍采用了语义网框架中RDF(Resource Description Framework,资源模式框架)模型来表示数据。语义网是万维网之父蒂姆·伯纳斯-李(Tim Berners-Lee)在1998年提出的概念,其核心是构建以数据为中心的网络,即Web of Data;这是相对于我们目前的万维网是Web of Pages而提出的。众所周知,万维网是利用超链接技术将不同的文档链接起来,从而方便用户的浏览和文档的共享。HTML文档的语法在于告诉浏览器按照何种格式来显示该文档,而并不是告诉计算机文档中的数据分别表示什么语义信息。语义网的核心是让计算机能够理解文档中的数据,以及数据和数据之间的语义关联关系,从而使得机器可以更加智能化地处理这些信息。因此我们可以把语义网想象成是一个全球性的数据库系统,也就是我们通常所提到的Web of Data。由于语义网技术涉及面较广,本文仅涉及知识图谱所采用的语义网框架中的一项核心概念RDF(Resource Description Framework,资源描述框架)。RDF的基本数据模型包括了三个对象类型,资源(Resource)、谓词(Predicate)及陈述(Statements)。

资源: 所有能够使用RDF表示的对象都称之为资源,包括所有网络上的信息、虚拟概念、现实事物等等。资源以唯一的URI(统一资源标识——Uniform Resource Identifiers,通常使用的URL是它的一个子集)来表示,不同的资源拥有不同的URI。

谓词: 谓词描述资源的特征或资源间的关系。每一个谓词都有其意义,用于定义资源在谓词上的属性值(Property Value)或者其他资源的关系。

陈述: 一条陈述包含三个部分,通常称之为RDF三元组。其中主体一定是一个被描述的资源,由URI来表示。谓词可以表示主体的属性,或者表示主体和宾语之间某种关系;当表示属性时,宾语就是属性值,通常是一个字面值(literal);否则宾语是另外一个由URI表示的资源。

下图1展示了一个人物类百科的RDF三元组的知识图谱数据集。例如y:Abraham_Lincoln表示一个实体URI(其中y表示前缀http://en.wikipedia.org/wiki/),其有3三个属性(hasName,BornOndate,DiedOnDate)和一个关系(DiedIn)。

图1.RDF数据的例子


面向RDF数据集,W3C提出了一种结构化查询语言SPARQL;它类似于面向关系数据库的查询语言SQL。和SQL一样,SPARQL也是一种描述性的结构化查询语言,即用户只需要按照SPARQL定义的语法规则去描述其想查询的信息即可,不需要明确指定如何进行查询的计算机的实现步骤。2008年1月, SPARQL成为W3C的正式标准。SPARQL中的WHERE子句定义了查询条件,其也是由三元组来表示。我们不过多的介绍语法细节,有兴趣的读者可以参考[1]。下面的例子解释了SPARQL语言。假设我们需要在上面的RDF数据中查询“在1809年2月12日出生,并且在1865年4月15日逝世的人的姓名?” 这个查询可以表示成如图2的SPARQL语句。







请到「今天看啥」查看全文