专栏名称: 马哥Linux运维
马哥linux致力于linux运维培训,连续多年排名第一,订阅者可免费获得学习机会和相关Linux独家实战资料!
目录
相关文章推荐
51好读  ›  专栏  ›  马哥Linux运维

爬虫实践---一次下完所有小说:排行榜小说批量下载

马哥Linux运维  · 公众号  · 运维  · 2017-07-29 20:02

正文

请到「今天看啥」查看全文


在当前页面找到所有小说的连接,并保存在列表即可。

三、列表去重的小技巧:


就算是不同类别的小说,也是会重复出现在排行榜的。

这样无形之间就会浪费很多资源,尤其是在面对爬大量网页的时候。

这里只要一行代码就能解决:

这里调用了一个list的构造函数set:这样就能保证列表里没有重复的元素了。

四、代码实现


模块化,函数式编程是一个非常好的习惯,坚持把每一个独立的功能都写成函数,这样会使代码简单又可复用。

1.网页抓取头:

2.获取排行榜小说及其链接:







请到「今天看啥」查看全文