专栏名称: OSC开源社区
OSChina 开源中国 官方微信账号
目录
相关文章推荐
程序员小灰  ·  卖爆了。。。 ·  14 小时前  
稀土掘金技术社区  ·  一个vue3指令让el-table自动轮播 ·  2 天前  
极客之家  ·  7.3k star,一款开源高效的知识管理神器! ·  2 天前  
玉伯  ·  欢迎试用,过几天正式发布 0.3 ... ·  2 天前  
京东科技技术说  ·  大促数据库压力激增,如何一眼定位 SQL ... ·  2 天前  
51好读  ›  专栏  ›  OSC开源社区

爬取知乎 60 万用户信息之后的简单分析

OSC开源社区  · 公众号  · 程序员  · 2016-12-23 08:24

正文

请到「今天看啥」查看全文



为了保证数据的质量,避免爬到一些僵尸号什么的,我选择爬取关注列表而非粉丝列表。我随机挑选了一位粉丝过千的优秀回答者作为起始,爬取他的关注列表,再对列表中的每个人爬取其关注列表,以此类推……


下载了大概 7 个小时,爬了 40 多万用户的关注列表,拿到了 10G 的数据,如图所示:


理论上有 800 多万用户,可惜有很多重复的,去重后将数据导入 Elasticsearch,得到 60+ 万用户数据:


数据验证


接下来简单看看下载下来的数据靠不靠谱,随手在知乎和我的 Kibana 分别搜了下轮子哥 @vczh


可以看到,连同名的都搜出来是一样的,数据没啥问题。



关心的数据


然后使用 Elastichearch 的聚合查询配合 Kibana 对数据进行可视化展示,我主要分析了下面几个问题:







请到「今天看啥」查看全文