正文
关系挖掘:包括所有用户跟客体对象之间联系方式的挖掘。关系挖掘的难点主要是发现在每一个业务场景下,不同关系的产生对于广告效果的意义及影响。
App数据挖掘:微博作为开放平台接入了相当数量的第三方App,用户使用这些App的行为记录能帮助我们获取他们作为自然人的信息,用于判断用户在实际生活中的某些状态。另外,用户的App喜好能够直接帮助App类广告进行投放。
LBS数据挖掘:微博的签到数据能帮助判断用户的某些状态,同时也能满足部分客户在投放上的某些需求,比如O2O类的客户会更加关心附近的本地用户。
在长期业务实践中,我们最终将用户画像体系分为如下3个部分:
图3 微博商业数据体系
用户数据的计算有一套完整的高复用低耦合的数据模块体系来支撑,最终成形的数据挖掘架构如图4所示。
图4 微博商业数据挖掘架构
评价体系
四层评价
微博商业数据挖掘工作第一大重点是评价体系的建设。据我们了解,这是很多数据挖掘部门忽视的地方。我们建立了一个四层级的评价体系:
1.效果级:挖掘的结果可以直接用线上广告投放效果提升来评价。这是最强的一级评价。
示例:目前为止,只有兴趣挖掘能够使用这一级评价。
2.Ground Truth级:Ground Truth有一个规模足够的数据集来当作标注集和交叉验证的测试集,可以使用监督学习算法来做分类。这个Ground Truth数据集被当作最终可信的评估标准,也用于交叉验证。
示例:用户性别。微博所有用户都有自己填写的性别属性,但并非100%可信。但微博有很多实名认证的用户,这部分用户的性别是可信的,因此我们以这些用户作为标注,来修正那些没有实名认证的用户性别数据。
3.Case级:不具备统计意义的标准数据集,即无法获得标注数据,但对于分类的结果,少部分能够通过人工到微博用户的页面上去判断是否准确。这种情况只能通过规则来挖掘。
示例:常住城市。挖掘用户常住城市只能使用用户的IBS信息及IP地址,其余的特征对这个标签的贡献度都极其有限,因此只能使用规则来判定,然后对规则分类的结果抽样后,人工去用户微博页面上检验。只有大约5%的用户能够通过微博页面(博文、照片等信息)来人工判断他的常住城市。
4.Logic级:当以上三个级别的评价条件都不具备,只能评价逻辑完备性。即挖掘规则逻辑是否是当前情况下最合理的。
示例:差旅状态。用户当前位置不在常驻城市即判定为差旅状态,不做任何验证(但不做任何验证的情况极少,通常Case级和Logic级的评价很难完全分开,通常是偏Case或是偏Logic,总要同时看逻辑完备性和Case检验)。
图5 数据挖掘四层评价
评价体系建设
对于评价有如下原则: