专栏名称: 待字闺中

深度分析大数据、深度学习、人工智能等技术，切中实际应用场景，为大家授业解惑。间或，也会介绍国内外相关领域有趣的面试题。

相关文章推荐

炮口风暴 · 图-160轰炸机加力一开，飙到1.8马赫，F ... · 22 小时前

短剧新圈 · 48小时涨粉30万+，听花岛旗下李柯以靠《十 ... · 23 小时前

消费者报道 · 一键搞定攻略到预订？实测各路旅游AI助手 · 昨天

WallStreetTequila · 华尔街宣布首位AI分析师，留学生慌了…… · 昨天

Hacking黑白红 · 2025年HW,工资不再按天算了吗 · 2 天前

51好读 › 专栏 › 待字闺中

如何设计一个复杂的分布式爬虫系统？

待字闺中 · 公众号 · 程序员科技自媒体 · 2016-09-28 05:52

正文

请到「今天看啥」查看全文

ContentAcceptor 负责收集来自爬虫爬到的页面或是其它内容。爬虫一般将爬取的一批页面，比如，一百个页面，压缩打包成一个文件，发送给ContentAcceptor。ContentAcceptor收到后，解压，存储到分布式文件系统或是分布式数据库，或是直接交给ContentParser去分析。

CaptchaHandler 负责处理爬虫传过来的captcha，通过自动的captcha识别器，或是之前识别过的captcha的缓存，或是通过人工打码服务，等等，识别出正确的码，回传给爬虫，爬虫按照定义好的爬取逻辑去爬取。

RobotsFileHandler 负责处理和分析robots.txt文件，然后缓存下来，给ContentParser和URLManager提供禁止爬取的信息。一个行为端正的爬虫，原则上是应该遵守robots协议。但是，现在大数据公司，为了得到更多的数据，基本上遵守这个协议的不多。robots文件的爬取，也是通过URLManager作为一种爬取类型让分布式爬虫去爬取的。