专栏名称: 算法与数据结构
算法与数据结构知识、资源分享
目录
相关文章推荐
九章算法  ·  免费线上讲座来了!FAANG大佬带你通关面试! ·  22 小时前  
九章算法  ·  FAANG算法大牛开课了!在线击破57个算法 ... ·  2 天前  
算法爱好者  ·  OpenAI 和尤雨溪都觉得 Rust 真香! ·  2 天前  
算法与数据结构  ·  “把 if 往上提,for 往下放!” ·  4 天前  
51好读  ›  专栏  ›  算法与数据结构

爬取知乎60万用户信息之后的简单分析

算法与数据结构  · 公众号  · 算法  · 2017-03-23 11:35

正文

请到「今天看啥」查看全文


动机

在知乎上看到有个叫 @路人甲 的大神每隔一段时间就爬爬豆瓣/B站等等网站,做了很多有意思的分析,加上之前因为实验室项目接触过 Nutch,浅尝辄止了,所以一直想好好玩玩爬虫。

网上 Python 的爬虫教程很多,而自己的主语言是 Java,本着宣传 Java,以练促学的目的,我使用 Java 爬取了知乎 60 万用户信息,主要想看看知乎上妹子多不多啊/是不是都是基佬啊,标配常青藤/年薪百万是不是真的啊,等等。

思路

为了保证数据的质量,避免爬到一些僵尸号什么的,我选择爬取关注列表而非粉丝列表。我随机挑选了一位粉丝过千的优秀回答者作为起始,爬取他的关注列表,再对列表中的每个人爬取其关注列表,以此类推……

下载了大概 7 个小时,爬了 40 多万用户的关注列表,拿到了 10G 的数据,如图所示:







请到「今天看啥」查看全文