专栏名称: Python学习交流
每天更新,更新python相关的知识。希望诸君有所收获!
目录
相关文章推荐
Python爱好者社区  ·  月薪3万35岁脑干出血程序员:ICU躺了28 ... ·  3 天前  
Python爱好者社区  ·  务必立即拿下软考证(政策红利) ·  4 天前  
Python爱好者社区  ·  软考,yyds ·  3 天前  
Python爱好者社区  ·  Science披露:近3年,垃圾论文激增,9 ... ·  4 天前  
51好读  ›  专栏  ›  Python学习交流

python爬取妹子图5千张高清大图突破防盗链福利

Python学习交流  · 公众号  · Python  · 2019-04-07 16:58

正文

请到「今天看啥」查看全文


所需的库有

  • requests

  • BeautifulSoup

  • os

  • lxml

伪装成chrome浏览器,并加上referer请求头访问服务器不会被拒绝。

具体实现思路:

  • 分析网页源代码结构

  • 找到合适的入口

  • 循环爬取并去重加到循环队列

  • 基本上实现了爬取所有图片

代码思路/程序流程:

我通过观察发现meizitu网站的分布结构虽然找不到切入口但是其结构每一个页面都会展示一个main-image主图,并且页面下面都会有 推荐 这个板块,所以就i昂到了利用从 一个页面当作入口 ,利用beautifulsoup或者pyquery分析HTML页面提取出推荐的其他页面,添加到循环访问队列,整体程序最外蹭利用while循环控制结构,循环不重复地遍历队列里面的url页面,每个页面都只保存一个作为展示的主图这样就循环下去程序不停歇地运行也可以放到服务器上面爬取,顺便上传到网盘分享给广大--你懂的

下面是功能以及效果展示

整体展示







请到「今天看啥」查看全文