专栏名称: 数盟

数盟（数据科学家联盟）隶属于北京数盟科技有限公司，数盟致力于成为培养与发现“数据科学家”的黄埔军校。数盟服务包括：线下活动、大数据培训。官网：http://dataunion.org，合作：[email protected]

当知识图谱“遇见”深度学习

数盟 · 公众号 · 大数据 · 2017-05-31 22:03

正文

请到「今天看啥」查看全文

1.知识图谱的表示学习

知识图谱的表示学习旨在学习实体和关系的向量化表示,其关键是合理定义知识图谱中关于事实（三元组< h,r,t >）的损失函数 ƒ _r (h,t)，其中和是三元组的两个实体h和t的向量化表示。通常情况下，当事实 < h,r,t > 成立时，期望最小化 ƒ _r (h,t)。考虑整个知识图谱的事实，则可通过最小化

来学习实体以及关系的向量化表示，其中 O 表示知识图谱中所有事实的集合。不同的表示学习可以使用不同的原则和方法定义相应的损失函数。这里以基于距离和翻译的模型介绍知识图谱表示的基本思路[1]。

基于距离的模型。 其代表性工作是 SE 模型[2]。基本思想是当两个实体属于同一个三元组 < h,r,t > 时，它们的向量表示在投影后的空间中也应该彼此靠近。因此，损失函数定义为向量投影后的距离

其中矩阵 W _r,1 和 W _r,2 用于三元组中头实体 h 和尾实体 t 的投影操作。但由于 SE 引入了两个单独的投影矩阵，导致很难捕获实体和关系之间的语义相关性。Socher 等人针对这一问题采用三阶张量替代传统神经网络中的线性变换层来刻画评分函数。Bordes 等人提出能量匹配模型，通过引入多个矩阵的 Hadamard 乘积来捕获实体向量和关系向量的交互关系。

基于翻译的表示学习。 其代表性工作 TransE 模型通过向量空间的向量翻译来刻画实体与关系之间的相关性[3]。该模型假定，若 < h,r,t > 成立则尾部实体 t 的嵌入表示应该接近头部实体 h 加上关系向量 r 的嵌入表示，即 h+r≈t。因此，TransE 采用

作为评分函数。当三元组成立时，得分较低，反之得分较高。TransE 在处理简单的 1-1 关系（即关系两端连接的实体数比率为 1：1）时是非常有效的，但在处理 N-1、1-N 以及 N-N 的复杂关系时性能则显著降低。针对这些复杂关系，Wang 提出了 TransH 模型通过将实体投影到关系所在超平面,从而习得实体在不同关系下的不同表示。Lin 提出了 TransR 模型通过投影矩阵将实体投影到关系子空间，从而习得不同关系下的不同实体表示。

除了上述两类典型知识图谱表示学习模型之外，还有大量的其他表示学习模型。比如，Sutskever 等人使用张量因式分解和贝叶斯聚类来学习关系结构。Ranzato 等人引入了一个三路的限制玻尔兹曼机来学习知识图谱的向量化表示，并通过一个张量加以参数化。