专栏名称: 开发者阿橙
致力于成为国内最好的Python开发者学习交流平台,这里有关于Python的国内外最新消息,每日推送有趣有料的技术干货和社区动态。 官方网站:www.python-cn.com
目录
相关文章推荐
Python爱好者社区  ·  生成式AI,彻底爆了! ·  昨天  
Python爱好者社区  ·  公司Rust团队全员被裁,只因把服务写得「太 ... ·  昨天  
Python爱好者社区  ·  近4年不租房睡车里省10万元!41岁程序员回 ... ·  2 天前  
Python爱好者社区  ·  强的离谱!CNN,yyds ·  2 天前  
Python开发者  ·  外网热议:为什么 DeepSeek ... ·  昨天  
51好读  ›  专栏  ›  开发者阿橙

多线程爬取斗图网站,赶紧上车

开发者阿橙  · 公众号  · Python  · 2017-07-17 22:51

正文

请到「今天看啥」查看全文


打开网址: https://www.doutula.com/article/list/?page=1 ,从网址,我们可以推断出page={页码数字}是为了控制分页。

在每一中,我们可以看到大致有10个套图(套图点击之后是套图里面的具体图片,大致每个套图里有9张表情图),分别放在class为.list-group-item的a标签里,详情如下面的两张图片:

套图位置

每页10个套图a标签

点击一个套图连接之后,我们可以看到套图下的所有图片,然后选择一张图片观察它的src地址,后来发现就是img的属性 onerror的内容(至于为什么不是img下的src,大家可以访问地址试下)

onerror属性

img的src地址

其次:爬取思路(关键)

在第一步分析网站准备工作之后,我们思考下:怎么实现多页爬取?怎么获取每一页所有套图的连接?怎么获取每一套图里面所有表情图片的src?最后怎么实现多线程爬取(加快速度)?为了实现思路清晰,我们将每个模块封装成函数,下面相关代码模块:







请到「今天看啥」查看全文