专栏名称: CSDN

CSDN精彩内容每日推荐。我们关注IT产品研发背后的那些人、技术和故事。

微博商业数据挖掘方法

CSDN · 公众号 · 科技媒体 · 2017-03-27 11:18

正文

请到「今天看啥」查看全文

关系挖掘：包括所有用户跟客体对象之间联系方式的挖掘。关系挖掘的难点主要是发现在每一个业务场景下，不同关系的产生对于广告效果的意义及影响。

App数据挖掘：微博作为开放平台接入了相当数量的第三方App，用户使用这些App的行为记录能帮助我们获取他们作为自然人的信息，用于判断用户在实际生活中的某些状态。另外，用户的App喜好能够直接帮助App类广告进行投放。

LBS数据挖掘：微博的签到数据能帮助判断用户的某些状态，同时也能满足部分客户在投放上的某些需求，比如O2O类的客户会更加关心附近的本地用户。

在长期业务实践中，我们最终将用户画像体系分为如下3个部分：

基础数据：描述用户的一些基本信息，包括年龄、性别、常驻城市、手机型号、活跃度等。大部分信息可以直接获取或简单统计获取，有时需要对数据的准确性加以算法修正；
兴趣数据：主要描述“用户对什么感兴趣”；
情景数据：主要描述“用户是什么人”。

图3 微博商业数据体系

用户数据的计算有一套完整的高复用低耦合的数据模块体系来支撑，最终成形的数据挖掘架构如图4所示。

图4 微博商业数据挖掘架构

评价体系

四层评价

微博商业数据挖掘工作第一大重点是评价体系的建设。据我们了解，这是很多数据挖掘部门忽视的地方。我们建立了一个四层级的评价体系：

1.效果级：挖掘的结果可以直接用线上广告投放效果提升来评价。这是最强的一级评价。

示例：目前为止，只有兴趣挖掘能够使用这一级评价。

2.Ground Truth级：Ground Truth有一个规模足够的数据集来当作标注集和交叉验证的测试集，可以使用监督学习算法来做分类。这个Ground Truth数据集被当作最终可信的评估标准，也用于交叉验证。

示例：用户性别。微博所有用户都有自己填写的性别属性，但并非100%可信。但微博有很多实名认证的用户，这部分用户的性别是可信的，因此我们以这些用户作为标注，来修正那些没有实名认证的用户性别数据。

3.Case级：不具备统计意义的标准数据集，即无法获得标注数据，但对于分类的结果，少部分能够通过人工到微博用户的页面上去判断是否准确。这种情况只能通过规则来挖掘。

示例：常住城市。挖掘用户常住城市只能使用用户的IBS信息及IP地址，其余的特征对这个标签的贡献度都极其有限，因此只能使用规则来判定，然后对规则分类的结果抽样后，人工去用户微博页面上检验。只有大约5%的用户能够通过微博页面（博文、照片等信息）来人工判断他的常住城市。

4.Logic级：当以上三个级别的评价条件都不具备，只能评价逻辑完备性。即挖掘规则逻辑是否是当前情况下最合理的。

示例：差旅状态。用户当前位置不在常驻城市即判定为差旅状态，不做任何验证（但不做任何验证的情况极少，通常Case级和Logic级的评价很难完全分开，通常是偏Case或是偏Logic，总要同时看逻辑完备性和Case检验）。

图5 数据挖掘四层评价

评价体系建设

对于评价有如下原则：

请到「今天看啥」查看全文

推荐文章

小互AI · Anthropic研究报告：揭秘 Claude 深度研究背后的秘密教你如何构建多智能体研究系统

10 小时前

小互AI · Anthropic研究报告：揭秘 Claude 深度研究背后的秘密教你如何构建多智能体研究系统

10 小时前

新浪科技 · 【#知名牛散屠文斌被罚没近7700万元#】#知名牛散屠文斌领巨额-20250614134303

15 小时前

科技日报 · 自然科学基金委通报2025年第二批次科研不端行为案件处理结果

昨天

36氪 · 2.9元咖啡坑惨了库迪店员

昨天

36氪 · 腾讯音乐收购喜马拉雅，关于声意的下一层想象

昨天

可爱多手工艺术 · 再不起眼的旧毛线这样一钩，竟成了家中最强的收纳神器……（附教程）

8 年前

多娜茶茶c6c6 · 海贼王猜想:大妈能力的弱点暗示大妈重视血缘的原因

8 年前

成都发布 · 端午小长假咋走？成都交警蜀黍发布权威指南：不想堵路上就快看~

8 年前

全域旅游 · @所有济源人 | 暑假里，想免门票游黄河三峡的，看过来呦~~

7 年前

国家人文历史 · 时代 | 古装电视剧请注意，上奏折这事儿可不是哪个朝代都有的

7 年前