专栏名称: CSDN
CSDN精彩内容每日推荐。我们关注IT产品研发背后的那些人、技术和故事。
目录
相关文章推荐
小互AI  ·  Anthropic研究报告:揭秘 ... ·  10 小时前  
小互AI  ·  Anthropic研究报告:揭秘 ... ·  10 小时前  
新浪科技  ·  【#知名牛散屠文斌被罚没近7700万元#】# ... ·  15 小时前  
36氪  ·  2.9元咖啡坑惨了库迪店员 ·  昨天  
51好读  ›  专栏  ›  CSDN

微博商业数据挖掘方法

CSDN  · 公众号  · 科技媒体  · 2017-03-27 11:18

正文

请到「今天看啥」查看全文


  • 关系挖掘:包括所有用户跟客体对象之间联系方式的挖掘。关系挖掘的难点主要是发现在每一个业务场景下,不同关系的产生对于广告效果的意义及影响。

  • App数据挖掘:微博作为开放平台接入了相当数量的第三方App,用户使用这些App的行为记录能帮助我们获取他们作为自然人的信息,用于判断用户在实际生活中的某些状态。另外,用户的App喜好能够直接帮助App类广告进行投放。

  • LBS数据挖掘:微博的签到数据能帮助判断用户的某些状态,同时也能满足部分客户在投放上的某些需求,比如O2O类的客户会更加关心附近的本地用户。

  • 在长期业务实践中,我们最终将用户画像体系分为如下3个部分:

    • 基础数据:描述用户的一些基本信息,包括年龄、性别、常驻城市、手机型号、活跃度等。大部分信息可以直接获取或简单统计获取,有时需要对数据的准确性加以算法修正;

    • 兴趣数据:主要描述“用户对什么感兴趣”;

    • 情景数据:主要描述“用户是什么人”。


    图3 微博商业数据体系

    用户数据的计算有一套完整的高复用低耦合的数据模块体系来支撑,最终成形的数据挖掘架构如图4所示。


    图4 微博商业数据挖掘架构

    评价体系

    四层评价

    微博商业数据挖掘工作第一大重点是评价体系的建设。据我们了解,这是很多数据挖掘部门忽视的地方。我们建立了一个四层级的评价体系:

    1.效果级:挖掘的结果可以直接用线上广告投放效果提升来评价。这是最强的一级评价。

    示例:目前为止,只有兴趣挖掘能够使用这一级评价。

    2.Ground Truth级:Ground Truth有一个规模足够的数据集来当作标注集和交叉验证的测试集,可以使用监督学习算法来做分类。这个Ground Truth数据集被当作最终可信的评估标准,也用于交叉验证。

    示例:用户性别。微博所有用户都有自己填写的性别属性,但并非100%可信。但微博有很多实名认证的用户,这部分用户的性别是可信的,因此我们以这些用户作为标注,来修正那些没有实名认证的用户性别数据。

    3.Case级:不具备统计意义的标准数据集,即无法获得标注数据,但对于分类的结果,少部分能够通过人工到微博用户的页面上去判断是否准确。这种情况只能通过规则来挖掘。

    示例:常住城市。挖掘用户常住城市只能使用用户的IBS信息及IP地址,其余的特征对这个标签的贡献度都极其有限,因此只能使用规则来判定,然后对规则分类的结果抽样后,人工去用户微博页面上检验。只有大约5%的用户能够通过微博页面(博文、照片等信息)来人工判断他的常住城市。

    4.Logic级:当以上三个级别的评价条件都不具备,只能评价逻辑完备性。即挖掘规则逻辑是否是当前情况下最合理的。

    示例:差旅状态。用户当前位置不在常驻城市即判定为差旅状态,不做任何验证(但不做任何验证的情况极少,通常Case级和Logic级的评价很难完全分开,通常是偏Case或是偏Logic,总要同时看逻辑完备性和Case检验)。


    图5 数据挖掘四层评价


    评价体系建设

    对于评价有如下原则:







    请到「今天看啥」查看全文