专栏名称: 程序员大咖
为程序员提供最优质的博文、最精彩的讨论、最实用的开发资源;提供最新最全的编程学习资料:PHP、Objective-C、Java、Swift、C/C++函数库、.NET Framework类库、J2SE API等等。并不定期奉送各种福利。
目录
相关文章推荐
蚂蚁技术AntTech  ·  推动数据价值的安全释放,第二届“隐语杯”数据 ... ·  17 小时前  
京东科技技术说  ·  【银河麒麟高级服务器操作系统】正式上线云主机 ... ·  2 天前  
老刘说NLP  ·  RAG&KG&LLM&文档智能四大领域技术前 ... ·  3 天前  
51好读  ›  专栏  ›  程序员大咖

爬虫可能都会用,但是背后的架构你真的懂了吗?

程序员大咖  · 公众号  · 程序员  · 2018-04-01 10:24

正文

请到「今天看啥」查看全文


下图显示了 Scrapy 的大体架构,其中包含了它的主要组件及系统的数据处理流程(绿色箭头所示)。下面就来一个个解释每个组件的作用及数据的处理过程。

二、组件

1、 Scrapy Engine ( Scrapy 引擎)

Scrapy 引擎是用来控制整个系统的数据处理流程,并进行事务处理的触发。更多的详细内容可以看下面的数据处理流程。

2、 Scheduler (调度)

调度程序从 Scrapy 引擎接受请求并排序列入队列,并在 Scrapy 引擎发出请求后返还给他们。

3、 Downloader (下载器)

下载器的主要职责是抓取网页并将网页内容返还给蜘蛛  ( Spiders )。

4、 Spiders (蜘蛛)

蜘蛛是有 Scrapy 用户自己定义用来解析网页并抓取制定 URL 返回的内容的类,每个蜘蛛都能处理一个域名或一组域名。换句话说就是用来定义特定网站的抓取和解析规则。

蜘蛛的整个抓取流程(周期)是这样的:







请到「今天看啥」查看全文