专栏名称: 开发者阿橙

致力于成为国内最好的Python开发者学习交流平台，这里有关于Python的国内外最新消息，每日推送有趣有料的技术干货和社区动态。官方网站：www.python-cn.com

多线程爬取斗图网站，赶紧上车

开发者阿橙 · 公众号 · Python · 2017-07-17 22:51

正文

打开网址： https://www.doutula.com/article/list/?page=1 ，从网址，我们可以推断出page={页码数字}是为了控制分页。

在每一中，我们可以看到大致有10个套图（套图点击之后是套图里面的具体图片，大致每个套图里有9张表情图），分别放在class为.list-group-item的a标签里，详情如下面的两张图片：

套图位置

每页10个套图a标签

点击一个套图连接之后，我们可以看到套图下的所有图片，然后选择一张图片观察它的src地址，后来发现就是img的属性 onerror的内容（至于为什么不是img下的src，大家可以访问地址试下）

onerror属性

img的src地址

其次：爬取思路（关键）

在第一步分析网站准备工作之后，我们思考下：怎么实现多页爬取？怎么获取每一页所有套图的连接？怎么获取每一套图里面所有表情图片的src？最后怎么实现多线程爬取（加快速度）？为了实现思路清晰，我们将每个模块封装成函数，下面相关代码模块：

推荐文章

Python爱好者社区 · 生成式AI，彻底爆了！

昨天

Python爱好者社区 · 公司Rust团队全员被裁，只因把服务写得「太稳定」：“项目0故障、0报警，那养着3个Rust工程师没用啊”

昨天

Python爱好者社区 · 近4年不租房睡车里省10万元！41岁程序员回应：并非省钱，月入几万元，老家有“小别墅”

2 天前

Python爱好者社区 · 强的离谱！CNN，yyds

2 天前

Python开发者 · 外网热议：为什么 DeepSeek 大规模部署成本低，但本地运行昂贵？

昨天

丁香医生 · 给朋友圈的饺子们一个最漂亮的评价，一定是……

8 年前

吃喝玩乐在济宁 · 支付宝集福活动又来了,内附敬业福秘籍!

8 年前

儿童摄影引导技巧 · 12张照片记录妈妈满满的爱，超有纪念意义，不看后悔！

8 年前

程序猿 · 2017值得一瞥的JavaScript相关技术趋势

8 年前

张江发布 · 产品 | 指纹锁还不够靠谱？三端加密的安全手机来啦！

8 年前