专栏名称: 程序员大咖

为程序员提供最优质的博文、最精彩的讨论、最实用的开发资源；提供最新最全的编程学习资料：PHP、Objective-C、Java、Swift、C/C++函数库、.NET Framework类库、J2SE API等等。并不定期奉送各种福利。

爬虫可能都会用，但是背后的架构你真的懂了吗？

程序员大咖 · 公众号 · 程序员 · 2018-04-01 10:24

正文

下图显示了 Scrapy 的大体架构，其中包含了它的主要组件及系统的数据处理流程（绿色箭头所示）。下面就来一个个解释每个组件的作用及数据的处理过程。

二、组件

1、 Scrapy Engine （ Scrapy 引擎）

Scrapy 引擎是用来控制整个系统的数据处理流程，并进行事务处理的触发。更多的详细内容可以看下面的数据处理流程。

2、 Scheduler （调度）

调度程序从 Scrapy 引擎接受请求并排序列入队列，并在 Scrapy 引擎发出请求后返还给他们。

3、 Downloader （下载器）

下载器的主要职责是抓取网页并将网页内容返还给蜘蛛 ( Spiders )。

4、 Spiders （蜘蛛）

蜘蛛是有 Scrapy 用户自己定义用来解析网页并抓取制定 URL 返回的内容的类，每个蜘蛛都能处理一个域名或一组域名。换句话说就是用来定义特定网站的抓取和解析规则。

蜘蛛的整个抓取流程（周期）是这样的：

推荐文章

蚂蚁技术AntTech · 推动数据价值的安全释放，第二届“隐语杯”数据挑战赛报名启动

17 小时前

京东科技技术说 · 【银河麒麟高级服务器操作系统】正式上线云主机官方镜像

2 天前

程序猿 · 确认裁员了，很严重，所有人做好准备吧！

3 天前

老刘说NLP · RAG＆KG＆LLM＆文档智能四大领域技术前沿：老刘说NLP技术社区持续对外纳新

3 天前

蚂蚁技术AntTech · 欢迎参加！蚂蚁SRC年度颁奖盛典&大模型安全交流会

昨天

水木文摘 · 在吗？

8 年前

南方日报 · “刘氏哈蜜”样品掺糖超五成！消委会：这已成行业潜规则！｜教你这样鉴别

8 年前

CSDN · 微博商业数据挖掘方法

8 年前

练瑜伽 · 曾两次自杀、重度抑郁症，瑜伽让她重生，从一个菜鸟，变成了瑜伽大神。

8 年前

济宁7890后 · 震惊！200斤的胖子居然瘦成这样，原因竟是因为......

8 年前