scrapy框架结构与工作原理

组件：

ENGINE：引擎，框架的核心，其他组件在其控制下协同工作。

SCHEDULER：调度器，负责对SPIDER提交的下载请求进行调度

DOWNLOADER：下载器，负责下载页面，发送HTTP请求/接收HTTP响应

SPIDER：爬虫，负责提取页面数据，并产生对新的页面的下载请求

MIDDLEWARE：中间件，负责对Request对象和Response对象进行处理

ITEM PIPELINE：数据管道，负责对爬取到的数据进行处理

数据流：

REQUEST：Scrapy中HTTP请求对象

RESPONSE：Scrapy中HTTP响应对象

ITEM ：从页面中爬取的一项数据

理解Scrapy爬虫工作原理，以对象在框架中流动的过程解释：

*当SPIDER要爬取URL地址的页面时，需使用该URL构造一个Request对象，提交给ENGINE；

*Request对象随后进入SCHEDULER按照某种算法进行排队，之后某个时间SCHEDULER将其出队，送往DOWNLOADER；

*DOWNLOADER根据Request对象中的URL地址发送一次HTTP请求到网站服务器，之后用服务器返回的HTTP响应构造一个Response对象，其中包含HTML文本

*Response对象最终会被传递到SPIDER的页面解析函数进行处理，从页面中提取的数据封装为ITEM提交给ENHINE，之后被送到ITEMPIPLINES进行处理，最终可能以某种形式存

储，另一方面页面解析函数还会从页面中提取URL，构造新的Request对象；

scrapy框架结构与工作原理的更多相关文章

Scrapy 框架结构及工作原理
1.下图为 Scrapy 框架的组成结构,并从数据流的角度揭示 Scrapy 的工作原理 2.首先.简单了解一下 Scrapy 框架中的各个组件组件描述类型 EN ...
Python爬虫-Scrapy框架的工作原理
Scrapy框架工作原理 Scrapy框架架构图 Scrapy框架主要由六大组件组成,分别为: 调度器(Scheduler),下载器(Downler),爬虫(Spiders),中间件(Middwa ...
python爬虫学习之Scrapy框架的工作原理
一.Scrapy简介 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中. 其最初是为了页面抓取 (更确切来说, 网 ...
python网络爬虫之scrapy 工程创建以及原理介绍
执行scrapy startproject XXXX的命令,就会在对应的目录下生成工程在pycharm中打开此工程目录:并在Run中选择Edit Configuration 点击+创建一个Pytho ...
菜鸟学Struts2——Struts工作原理
在完成Struts2的HelloWorld后,对Struts2的工作原理进行学习.Struts2框架可以按照模块来划分为Servlet Filters,Struts核心模块,拦截器和用户实现部分,其中 ...
【夯实Nginx基础】Nginx工作原理和优化、漏洞
本文地址原文地址本文提纲: 1. Nginx的模块与工作原理 2. Nginx的进程模型 3 . NginxFastCGI运行原理 3.1 什么是 FastCGI ...
HashMap的工作原理
HashMap的工作原理 HashMap的工作原理是近年来常见的Java面试题.几乎每个Java程序员都知道HashMap,都知道哪里要用HashMap,知道HashTable和HashMap之间 ...
【Oracle 集群】ORACLE DATABASE 11G RAC 知识图文详细教程之RAC 工作原理和相关组件（三）
RAC 工作原理和相关组件(三) 概述:写下本文档的初衷和动力,来源于上篇的<oracle基本操作手册>.oracle基本操作手册是作者研一假期对oracle基础知识学习的汇总.然后形成体 ...
ThreadLocal 工作原理、部分源码分析
1.大概去哪里看 ThreadLocal 其根本实现方法,是在Thread里面,有一个ThreadLocal.ThreadLocalMap属性 ThreadLocal.ThreadLocalMap t ...

随机推荐

Java实现蓝桥杯VIP 算法训练 P0502
试题算法训练 P0502 资源限制时间限制:1.0s 内存限制:256.0MB 编写一个程序,读入一组整数,这组整数是按照从小到大的顺序排列的,它们的个数N也是由用户输入的,最多不会超过20.然后 ...
Java实现 LeetCode 147 对链表进行插入排序
147. 对链表进行插入排序对链表进行插入排序. 插入排序的动画演示如上.从第一个元素开始,该链表可以被认为已经部分排序(用黑色表示). 每次迭代时,从输入数据中移除一个元素(用红色表示),并原地将 ...
java实现第六届蓝桥杯密文搜索
密文搜索福尔摩斯从X星收到一份资料,全部是小写字母组成. 他的助手提供了另一份资料:许多长度为8的密码列表. 福尔摩斯发现,这些密码是被打乱后隐藏在先前那份资料中的. 请你编写一个程序,从第一份资料 ...
逐行解读HashMap源码
[本文版权归微信公众号"代码艺术"(ID:onblog)所有,若是转载请务必保留本段原创声明,违者必究.若是文章有不足之处,欢迎关注微信公众号私信与我进行交流!] 一.写在前面相 ...
实用！看Python如何光速合并多个PDF
大家好,今天分享一个实用的办公脚本:将多个PDF合并为一个PDF, 例如我手上现在有如下3个PDF分册,需要整合成一个完整的PDF. 如果换成你操作的话,是不是打开百度搜索:PDF合并,然后去第三方网 ...
Go语言json编码驼峰转下划线、下划线转驼峰
目录一.需求二.实现三.使用 JsonSnakeCase统一转下划线json JsonSnakeCase统一转驼峰json 一.需求 golang默认的结构体json转码出来,都是大写驼峰的,并 ...
python3 源码阅读-虚拟机运行原理
阅读源码版本python 3.8.3 参考书籍<<Python源码剖析>> 参考书籍<<Python学习手册第4版>> 官网文档目录介绍 Doc目录主 ...
kibana的Dev Tool中如何对es进行增删改查
kinaba Dev Tool中对es(elasticSearch)进行增删改查一.查询操作查询语句基本语法以下语句类似于mysql的: select * from xxx.yyy.topic ...
PAT 1038 Recover the Smallest Number (30分) string巧排序
题目 Given a collection of number segments, you are supposed to recover the smallest number from them. ...
SpringBoot 2.3 整合最新版 ShardingJdbc + Druid + MyBatis
今天项目不忙,想搞一下shardingJDBC分库分表看看,主要想实现以下几点: 舍弃xml配置,使用.yml或者.properties文件+java的方式配置spring. 使用 Druid 作为数 ...

scrapy框架结构与工作原理

scrapy框架结构与工作原理的更多相关文章

随机推荐

热门专题