专栏名称: 程序员大咖
为程序员提供最优质的博文、最精彩的讨论、最实用的开发资源;提供最新最全的编程学习资料:PHP、Objective-C、Java、Swift、C/C++函数库、.NET Framework类库、J2SE API等等。并不定期奉送各种福利。
目录
相关文章推荐
OSC开源社区  ·  走进群核科技丨AI 数据全链路闭环加速沙龙 ·  2 天前  
蚂蚁技术AntTech  ·  蚂蚁百灵大模型:智能演进与开源实践 ·  昨天  
程序员的那些事  ·  大翻车!特朗普手机吹 “美国造” 卖 ... ·  昨天  
程序员的那些事  ·  黄仁勋回应任正非最新讲话 ·  3 天前  
大淘宝技术  ·  加一个JVM参数,让系统可用率从95%提高到 ... ·  昨天  
51好读  ›  专栏  ›  程序员大咖

运用 Redis 构建分布式爬虫,抓妹子图

程序员大咖  · 公众号  · 程序员  · 2018-03-11 10:24

正文

请到「今天看啥」查看全文


}


2:加任务队列

计算并发送请求获取根页面的html从中匹配到img的地址发送到本地redis中。

def push_redis_list () :

r = Redis ()

print r . keys ( '*' )

for i in range ( 100 ) :

num = 5100 + i ; #抓取的取件仅在5100--5200之间

url = 'http://www.meizitu.com/a/' + str ( num ) + '.html'

img_url = requests . get ( url , timeout = 30 )

#print img_url.text

#time.sleep(10)

img_url_list = re . findall ( 'http://pic.meizitu.com/wp-content/uploads/201.*.jpg' , img_url . text )

print







请到「今天看啥」查看全文