AI专题 | 企业大数据挖掘：为员工构建职场知识图谱

微软科技 · 公众号 · 科技媒体 · 2017-02-24 16:59

正文

请到「今天看啥」查看全文

在一个机构里，我们把员工的职场知识图谱叫做EDI Graph（Enterprise Deep Intelligence Graph），图谱内的信息包括员工的部门、技能、项目、文档、时间、会议室和办公室等，其中每条信息又有各自丰富的属性，信息与信息之间也存在丰富的关联；这些信息的来源主要分为企业内部数据和互联网数据两部分，其中，企业内部数据主要包括内部网页、文档、会议记录、员工基本资料等数据，互联网数据则主要包括维基百科、学术论文、LinkedIn等公开数据。如何将来自公司内部、社交网络、Web等不同来源的异构数据进行梳理和融合、构成一张完整的职场知识图谱，这是构建EDI Graph的关键技术。只要有了图谱，就能构建EDI Bot，让这个昵称为EDI的机器人拥有“大脑”，能进行理解和分析，了解每个员工的专长以及从事的工作内容，成为员工贴心的个人助理。

与《黑镜》里的机器人相似，EDI也是知道信息越多就越能了解人以及人与人之间的关系，越接近员工的工作知己。

信息融合

“EDI, where is BJW1?”

对于同一件事，人们往往会有不同的表达，这是人与机器的一大不同。 举例：“BJW1”是英文“北京微软西1号楼“的简称，但人们在不同情境下可能还有其他表达方式，比如“BJW-1”、“Beijing West 1”、“Microsoft Tower 1，Beijing，China”以及“微软1号楼”等，这些表达上的差异无法用简单的字符串匹配或缩写匹配的方式来完成相似度的计算。那么，EDI该如何知晓它们所指的其实是同一个地点呢？

我们的做法是将这些千变万化的表达看作不同的语言，通过机器翻译技术，找到词与词之间具有的某种翻译关系，从而实现相似词语的融合。

首先，利用种子规则，找到信息中高准确度的种子节点对，利用种子节点对中属性的不同表达，构建平行语料库。之后，使用深度学习技术构建翻译模型，完成不同信息源之间的属性“翻译”。通过机器翻译，不仅能计算简单字符串匹配无法计算的相似表达，甚至还能计算不同语言中同一表达的相似度，让EDI 能够吸收消化更多更广泛的信息来源，对用户的表达做出更准确的判断。