专栏名称: 程序员大咖
为程序员提供最优质的博文、最精彩的讨论、最实用的开发资源;提供最新最全的编程学习资料:PHP、Objective-C、Java、Swift、C/C++函数库、.NET Framework类库、J2SE API等等。并不定期奉送各种福利。
目录
相关文章推荐
老刘说NLP  ·  两个有趣的工作:Huggingface知识图 ... ·  9 小时前  
程序猿  ·  传字节跳动内部开始禁用Cursor了 ·  3 天前  
极客之家  ·  一键将 Docker 命令转化为 ... ·  3 天前  
逸言  ·  怎么看待AI辅助编程 ·  2 天前  
51好读  ›  专栏  ›  程序员大咖

一小时爬千万数据的新浪微博爬虫

程序员大咖  · 公众号  · 程序员  · 2018-05-15 10:24

正文

请到「今天看啥」查看全文




爬虫功能:

  • 此项目和 QQ空间爬虫 类似,主要爬取新浪微博用户的个人信息、微博信息、粉丝和关注( 详细见此 )。

  • 代码获取新浪微博Cookie进行登录,可通过多账号登录来防止新浪的反扒(用来登录的账号可从淘宝购买,一块钱七个)。

  • 项目爬的是新浪微博wap站,结构简单,速度应该会比较快,而且反扒没那么强,缺点是信息量会稍微缺少一些(可见 爬虫福利:如何爬wap站 )。

  • 爬虫抓取微博的速度可以达到 1300万/天 以上,具体要视网络情况,我使用的是校园网(广工大学城校区),普通的家庭网络可能才一半的速度,甚至都不到。

环境、架构:

开发语言:Python2.7
开发环境:64位Windows8系统,4G内存,i7-3612QM处理器。
数据库:MongoDB 3.2.0
(Python编辑器:Pycharm 5.0.4;MongoDB管理工具:MongoBooster 1.1.1)

  • 主要使用 scrapy 爬虫框架。

  • 下载中间件会从Cookie池和User-Agent池中随机抽取一个加入到spider中。

  • start_requests 中根据用户ID启动四个Request,同时对个人信息、微博、关注和粉丝进行爬取。







请到「今天看啥」查看全文