专栏名称: 马哥Linux运维
马哥linux致力于linux运维培训,连续多年排名第一,订阅者可免费获得学习机会和相关Linux独家实战资料!
目录
相关文章推荐
51好读  ›  专栏  ›  马哥Linux运维

碉堡了!一小时爬取百万知乎用户信息的Python神器曝光

马哥Linux运维  · 公众号  · 运维  · 2017-07-10 19:02

主要观点总结

本文介绍了Pythoner志朋在知乎上的爬虫实验,包括使用的技术栈、数据成果、简单的可视化分析、爬虫架构、编码实现、如何获取authorization、可改进的地方等。文章还提及了ELK套件的安装和使用,以及爬虫在数据分析中的应用。

关键观点总结

关键观点1: 技术栈

使用了python27、requests、json、bs4、time等工具进行爬虫,使用ELK套件进行数据分析。

关键观点2: 数据成果

成功爬取了知乎部分用户数据信息,并进行了简单的可视化分析,如性别分布、粉丝最多的top30、写文章最多的top30等。

关键观点3: 爬虫架构

介绍了爬虫的架构图,包括选择活跃用户的url作为入口,抓取内容并解析,存储数据到本地磁盘,使用logstash、elasticsearch和kibana进行数据可视化。

关键观点4: 获取authorization的方法

介绍了如何通过chrome浏览器获取知乎的authorization,并解释了如何改进爬虫效率,如增加线程池、存储策略等。

关键观点5: 课程推广

文章最后推荐了马哥教育的Python自动化开发实战班,介绍了课程内容和咨询抢位方式。


正文

请到「今天看啥」查看全文


可见知乎的用户男性颇多。


2.粉丝最多的top30

粉丝最多的前三十名:依次是张佳玮、李开复、黄继新等等,去知乎上查这些人,也差不多这个排名,说明爬取的数据具有一定的说服力。


3.写文章最多的top30



四、爬虫架构

爬虫架构图如下:


说明:

选择一个活跃的用户(比如李开复)的url作为入口url.并将已爬取的url存在set中。

抓取内容,并解析该用户的关注的用户的列表url,添加这些url到另一个set中,并用已爬取的url作为过滤。

解析该用户的个人信息,并存取到本地磁盘。

logstash取实时的获取本地磁盘的用户数据,并给elsticsearch







请到「今天看啥」查看全文


推荐文章
微设计  ·  在院子里就餐,食色自然
8 年前
最爱电视剧集  ·  没看过这部电影,别说你认识黄渤
8 年前
调皮电商  ·  给无人货架泼点冷水
7 年前