专栏名称: Python开发者
人生苦短,我用 Python。伯乐在线旗下账号「Python开发者」分享 Python 相关的技术文章、工具资源、精选课程、热点资讯等。
目录
相关文章推荐
Python开发者  ·  今年IT就业市场的风向已经很明显了。。。 ·  昨天  
Python开发者  ·  GitHub 第 10 ... ·  昨天  
Python爱好者社区  ·  确认裁员了,很严重,所有人做好准备吧! ·  3 天前  
Python爱好者社区  ·  python必备手册 ·  4 天前  
Python爱好者社区  ·  全球第二大成人网站,正在被打包出售。。。 ·  4 天前  
51好读  ›  专栏  ›  Python开发者

Python 抓取百度百科数据

Python开发者  · 公众号  · Python  · 2017-02-14 21:11

正文

请到「今天看啥」查看全文


== 10 :

break

count = count + 1

except :

print ( 'craw failed' )

self . outputer . output_html ()

if __name__ == '__main__' :

root_url = 'http://baike.baidu.com/view/21087.htm'

obj_spider = SpiderMain ()

obj_spider . craw ( root_url )


url_manger.py


# coding:utf-8

class UrlManager ( object ) :

def __init__ ( self ) :

self . new_urls = set ()

self . old_urls = set ()

def add_new_url ( self , url ) :

if url is None :

return

if url not in self . new_urls and url not in self . old_urls :

self . new_urls . add ( url )

def add_new_urls ( self , urls ) :

if urls is None or len ( urls ) == 0 :

return

for url in urls :

self . add_new_url ( url )

def has_new_url ( self ) :

return len ( self . new_urls ) != 0

def







请到「今天看啥」查看全文