碉堡了！一小时爬取百万知乎用户信息的Python神器曝光

马哥Linux运维 · 公众号 · 运维 · 2017-07-10 19:02

主要观点总结

本文介绍了Pythoner志朋在知乎上的爬虫实验，包括使用的技术栈、数据成果、简单的可视化分析、爬虫架构、编码实现、如何获取authorization、可改进的地方等。文章还提及了ELK套件的安装和使用，以及爬虫在数据分析中的应用。

使用了python27、requests、json、bs4、time等工具进行爬虫，使用ELK套件进行数据分析。

成功爬取了知乎部分用户数据信息，并进行了简单的可视化分析，如性别分布、粉丝最多的top30、写文章最多的top30等。

介绍了爬虫的架构图，包括选择活跃用户的url作为入口，抓取内容并解析，存储数据到本地磁盘，使用logstash、elasticsearch和kibana进行数据可视化。

介绍了如何通过chrome浏览器获取知乎的authorization，并解释了如何改进爬虫效率，如增加线程池、存储策略等。

文章最后推荐了马哥教育的Python自动化开发实战班，介绍了课程内容和咨询抢位方式。

可见知乎的用户男性颇多。

粉丝最多的前三十名：依次是张佳玮、李开复、黄继新等等，去知乎上查这些人，也差不多这个排名，说明爬取的数据具有一定的说服力。

四、爬虫架构

爬虫架构图如下：

说明：

选择一个活跃的用户（比如李开复）的url作为入口url.并将已爬取的url存在set中。

抓取内容，并解析该用户的关注的用户的列表url，添加这些url到另一个set中，并用已爬取的url作为过滤。

解析该用户的个人信息，并存取到本地磁盘。

logstash取实时的获取本地磁盘的用户数据，并给elsticsearch