专栏名称: 待字闺中
深度分析大数据、深度学习、人工智能等技术,切中实际应用场景,为大家授业解惑。间或,也会介绍国内外相关领域有趣的面试题。
目录
相关文章推荐
炮口风暴  ·  图-160轰炸机加力一开,飙到1.8马赫,F ... ·  22 小时前  
炮口风暴  ·  图-160轰炸机加力一开,飙到1.8马赫,F ... ·  22 小时前  
短剧新圈  ·  48小时涨粉30万+,听花岛旗下李柯以靠《十 ... ·  23 小时前  
消费者报道  ·  一键搞定攻略到预订?实测各路旅游AI助手 ·  昨天  
消费者报道  ·  一键搞定攻略到预订?实测各路旅游AI助手 ·  昨天  
WallStreetTequila  ·  华尔街宣布首位AI分析师,留学生慌了…… ·  昨天  
WallStreetTequila  ·  华尔街宣布首位AI分析师,留学生慌了…… ·  昨天  
Hacking黑白红  ·  2025年HW,工资不再按天算了吗 ·  2 天前  
Hacking黑白红  ·  2025年HW,工资不再按天算了吗 ·  2 天前  
51好读  ›  专栏  ›  待字闺中

如何设计一个复杂的分布式爬虫系统?

待字闺中  · 公众号  · 程序员 科技自媒体  · 2016-09-28 05:52

正文

请到「今天看啥」查看全文



ContentAcceptor 负责收集来自爬虫爬到的页面或是其它内容。爬虫一般将爬取的一批页面,比如,一百个页面,压缩打包成一个文件,发送给ContentAcceptor。ContentAcceptor收到后,解压,存储到分布式文件系统或是分布式数据库,或是直接交给ContentParser去分析。


CaptchaHandler 负责处理爬虫传过来的captcha,通过自动的captcha识别器,或是之前识别过的captcha的缓存,或是通过人工打码服务,等等,识别出正确的码,回传给爬虫,爬虫按照定义好的爬取逻辑去爬取。


RobotsFileHandler 负责处理和分析robots.txt文件,然后缓存下来,给ContentParser和URLManager提供禁止爬取的信息。一个行为端正的爬虫,原则上是应该遵守robots协议。但是,现在大数据公司,为了得到更多的数据,基本上遵守这个协议的不多。robots文件的爬取,也是通过URLManager作为一种爬取类型让分布式爬虫去爬取的。







请到「今天看啥」查看全文