专栏名称: OSC开源社区
OSChina 开源中国 官方微信账号
目录
相关文章推荐
伯乐在线  ·  吵翻了!苹果“液态玻璃”被指像 17 ... ·  18 小时前  
伯乐在线  ·  吵翻了!苹果“液态玻璃”被指像 17 ... ·  18 小时前  
京东科技技术说  ·  大促数据库压力激增,如何一眼定位 SQL ... ·  昨天  
码农翻身  ·  今年后端这薪资是认真的吗? ·  昨天  
程序猿  ·  还有人手动画图?一键生成 Draw.io ... ·  2 天前  
51好读  ›  专栏  ›  OSC开源社区

爬取知乎 60 万用户信息之后的简单分析

OSC开源社区  · 公众号  · 程序员  · 2016-12-23 08:24

正文

请到「今天看啥」查看全文



为了保证数据的质量,避免爬到一些僵尸号什么的,我选择爬取关注列表而非粉丝列表。我随机挑选了一位粉丝过千的优秀回答者作为起始,爬取他的关注列表,再对列表中的每个人爬取其关注列表,以此类推……


下载了大概 7 个小时,爬了 40 多万用户的关注列表,拿到了 10G 的数据,如图所示:


理论上有 800 多万用户,可惜有很多重复的,去重后将数据导入 Elasticsearch,得到 60+ 万用户数据:


数据验证


接下来简单看看下载下来的数据靠不靠谱,随手在知乎和我的 Kibana 分别搜了下轮子哥 @vczh


可以看到,连同名的都搜出来是一样的,数据没啥问题。



关心的数据


然后使用 Elastichearch 的聚合查询配合 Kibana 对数据进行可视化展示,我主要分析了下面几个问题:







请到「今天看啥」查看全文