scrapy框架结构图:

组成部分介绍:

Scrapy Engine：
负责组件之间数据的流转，当某个动作发生时触发事件
Scheduler：
接收requests，并把他们入队，以便后续的调度
Downloader：
负责抓取网页，并传送给引擎，之后抓取结果将传给spider
Spiders：
用户编写的可定制化的部分，负责解析response，产生items和URL
Item Pipeline：
负责处理item，典型的用途：清洗、验证、持久化
Downloader middlewares：
位于引擎和下载器之间的一个钩子，处理传送到下载器的requests和传送到引擎的response(若需要在Requests到达Downloader之前或者是responses到达spiders之前做一些预处理，可以使用该中间件来完成)
Spider middlewares：
位于引擎和抓取器之间的一个钩子，处理抓取器的输入和输出
(在spiders产生的Items到达Item Pipeline之前做一些预处理或response到达spider之前做一些处理)

Scrapy中的数据流:

Scrapy中的数据流由执行引擎控制，其过程如下:
1. 引擎打开一个网站(open a domain),找到处理该网站的spider，并向该spider请求第一个要爬取的url(s);
2. 引擎从spider中获取到第一个要爬取的url并在调度器(scheduler)以requests调度；
3. 引擎向调度器请求下一个要爬取的url；
4. 调度器返回下一个要爬取的url给引擎，引擎将url通过下载器中间件(请求requests方向)转发给下载器(Downloader);
5. 一旦页面下载完毕，下载器生成一个该页面的responses，并将其通过下载器中间件(返回responses方向)发送给引擎；
6. 引擎从下载器中接收到responses并通过spider中间件(输入方向)发送给spider处理；
7. spider处理responses并返回爬取到的Item及(跟进的)新的resquests给引擎
8. 引擎将(spider返回的)爬取到的Item给Item Pipeline，将(spider返回的)requests给调度器；
9. (从第二部)重复直到(调度器中没有更多的request)引擎关闭该网站

中间件的编写:

down loader middle ware – 查看文档151页
spider middle wares – 查看文档162页

scrapy框架解读--深入理解爬虫原理的更多相关文章

基于Scrapy框架的Python新闻爬虫
概述该项目是基于Scrapy框架的Python新闻爬虫,能够爬取网易,搜狐,凤凰和澎湃网站上的新闻,将标题,内容,评论,时间等内容整理并保存到本地详细代码下载:http://www.demoda ...
使用scrapy框架做赶集网爬虫
使用scrapy框架做赶集网爬虫一.安装首先scrapy的安装之前需要安装这个模块:wheel.lxml.Twisted.pywin32,最后在安装scrapy pip install wheel ...
Scrapy框架实战-妹子图爬虫
Scrapy这个成熟的爬虫框架,用起来之后发现并没有想象中的那么难.即便是在一些小型的项目上,用scrapy甚至比用requests.urllib.urllib2更方便,简单,效率也更高.废话不多说, ...
Scrapy框架解读
1. Scrapy组件a. 主体部分i. 引擎(Scrapy):处理整个系统的数据流处理,触发事务(框架核心)ii. 调度器(Scheduler):1) 用来接受引擎发过来的请求, 压入队列中, 并在 ...
基于Scrapy框架的增量式爬虫
概述概念:监测核心技术:去重基于 redis 的一个去重适合使用增量式的网站: 基于深度爬取的对爬取过的页面url进行一个记录(记录表) 基于非深度爬取的记录表:爬取过的数据对应的数据指纹 ...
网络爬虫第五章之Scrapy框架
第一节:Scrapy框架架构 Scrapy框架介绍写一个爬虫,需要做很多的事情.比如:发送网络请求.数据解析.数据存储.反反爬虫机制(更换ip代理.设置请求头等).异步请求等.这些工作如果每次都要自 ...
Scrapy框架学习笔记
1.Scrapy简介 Scrapy是用纯Python实现一个为了爬取网站数据.提取结构性数据而编写的应用框架,用途非常广泛. 框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网 ...
python高级之scrapy框架
目录: 爬虫性能原理 scrapy框架解析一.爬虫性能原理在编写爬虫时,性能的消耗主要在IO请求中,当单进程单线程模式下请求URL时必然会引起等待,从而使得请求整体变慢. 1.同步执行 impor ...
都是干货---真正的了解scrapy框架
去重规则在爬虫应用中,我们可以在request对象中设置参数dont_filter = True 来阻止去重.而scrapy框架中是默认去重的,那内部是如何去重的. from scrapy.dupe ...

随机推荐

python基础之类的封装
从封装本身的意思去理解,封装就好像是拿来一个麻袋,把小猫,小狗,小王八,还有alex一起装进麻袋,然后把麻袋封上口子.但其实这种理解相当片面一封装什么你钱包的有多少钱(数据的封装) 你的性取向( ...
js生成二维码/html2canvas生成屏幕截图
1.需求简述 (1) 最初需求: 根据后台接口获取url,生成一个二维码,用户可以长按保存为图片.(这时的二维码只是纯黑白像素构成的二维码) 方案1: 使用jquery.qrcode.min.js插件 ...
(转)Android工程出现 java.lang.NoClassDefFoundError错误解决方法
在Eclipse中,导入Android工程,工程没有报错,运行时,出现 java.lang.NoClassDefFoundError类没有找到的错误.从问题上可以看出是导入包出错的原因.遂百度加谷歌. ...
001-ant design pro安装、目录结构、项目加载启动【原始、以及idea开发】
一.概述 1.1.脚手架概念编程领域中的“脚手架(Scaffolding)”指的是能够快速搭建项目“骨架”的一类工具.例如大多数的React项目都有src,public,webpack配置文件等等, ...
Android View体系系列文章
http://www.cnblogs.com/Free-Thinker/p/6768783.html
nginx_cdn配置
upstream backend { server 1.1.1.1; keepalive 128; } proxy_temp_path /dev/shm; proxy_cache_path /data ...
Python（面向对象编程—1）
class tst: l=[] x=1 a=tst() b=tst() a.l.append('a') b.l.append('b') a.x='a' b.x='b' print(a.l,a.x) # ...
查看虚拟机操作系统、cpu核数、内存命令
1.查看操作系统在终端中执行下列指令:cat/etc/issue可以查看当前正在运行的 Ubuntu 的版本号.其输出结果类似下面的内容:Ubuntu 10.04 LTS \n \l方法二:使用 l ...
(转)HttpWebRequest以UTF-8编码写入内容时发生“Bytes to be written to the stream exceed the Content-Length bytes size specified.”错误
from:http://www.cnblogs.com/Gildor/archive/2010/12/13/1904060.html HttpWebRequest以UTF-8编码写入内容时发生“Byt ...
Django：学习笔记(4)——请求与响应
Django:学习笔记(4)——请求与响应 0.URL路由基础 Web应用中,用户通过不同URL链接访问我们提供的服务,其中首先经过的是一个URL调度器,它类似于SpringBoot中的前端控制器. ...

scrapy框架解读--深入理解爬虫原理

scrapy框架结构图:

组成部分介绍:

Scrapy中的数据流:

中间件的编写:

scrapy框架解读--深入理解爬虫原理的更多相关文章

随机推荐

热门专题