Scrapy框架的执行流程解析

这里主要介绍七个大类
Command->CrawlerProcess->Crawler->ExecutionEngine->sceduler
另外还有两个类：Request和HttpRessponse

执行流程

1.首先通过Command类中的run方法
(1).创建开始运行的命令
(2).将每一个spider对象的路径传入到crawl_process.crawl方法中去
(3).crawl_process.crawl方法创建一个Crawler对象,通过调用Crawler.crawl方法创建一个引擎和spider对象
(4).通过引擎的open_spider方法创建一个Scheduler对象，将每一个spider对象加入到schedler队列中去，并且通过自身的_next_request方法对下一次请求进行调度
(5).调用CrawlerProcess对象的start方法开始事件循环
2.CrawlerProcess类：
初始值：创建一个集合_active，用于存放每一个请求的socket对象
crawl方法：创建一个Crawler对象，调用Crawler.crawl方法，传入spider对象的路径（Crawler.crawl方法的作用是将传入的spider对象的路径通过调用_create_spider方法，
创建一个spider对象，通过_create_engine方法创建一个引擎，通过调用引擎中的open_spider方法将spider对象的start_reuqests请求加入到scheduler调度器中的
队列当中，然后调用引擎的中的_next_request方法对下一个请求进行调度。然后yield一个引擎的start方法，start方法返回的是一个defer.Defered对象，
不发送任何请求，需要手动停止，目的是为了夯住事件循环)并将返回的scoket的对象加入到集合中
start方法：将该socket对象的集合加到到defer.DeferedList中去，并添加回调函数进行手动停止。开始事件循环

3.Crawler类：用户封装引擎及spider对象
_create_engine方法:创建一个引擎
_create_spider:通过传入的spider对象的路径创建spider对象
crawl:调用_create_engine方法创建engine,调用_create_spider方法去打开spider对象，对spider中的start_requests请求转化为迭代器，通过调用engine.open_spider方法
调用next函数将每一个请求加入到调度器中的队列中去，并调用engine._next_request方法对下一次请求进行调度
4.ExecutionEngine类：
引擎：所有的调度
初始值：self._close = None:用于存放一个defer。defered对象， self.scheduler = None用于创建一个队列
self.max = 5设置最大并发数 self.crawlling = []创建一个正在执行请求的列表
open_spider方法:
1.创建一个调度器对象,将传入的start_requests请求通过next方法将每一个请求加入到队列当中去
2.然后开始事件循环执行_next_request方法对下一次请求的调度
注：每一个@defer.inlineCallbacks装饰的函数都必须yield一个对象，即使为None
_next_request方法:
1.对spider对象的请求进行调度
2.设置事件循环终止条件：调度器队列中请求的个数为0，正在执行的请求数为0
3.设置最大并发数，根据正在执行的请求数量满足最大并发数条件对sceduler队列中的请求进行调度执行，并将返回的请求加入到正在执行的列表中
4.包括对请求进行下载，以及对返回的数据执行callback函数
5.开始执行事件循环的下一次请求的调度
get_response_callback方法：
1.将返回数据的请求从正在执行的列表中移出
2.将返回的数据调用HttpResponse封装成一个response对象，执行请求的callback函数，并判断如果callback函数返回的结果是一个生成器对象，则将该生成器
中的每一个对象加入到调度器中的队列中去
start方法：不发送任何请求，需要手动停止，目的是为了夯住循环
5.Scheduler类：任务调度器
1.初始化一个队列
2.next_request方法：读取队列中的下一个请求
3.enqueue_request方法：将请求加入到队列
4.size方法：返回当前队列请求的数量
5.open方法：无任何操作，返回一个空值，用于引擎中用装饰器装饰的open_spider方法返回一个yield对象

6.Resquet类：用于封装用户请求相关信息，供用户编写spider时发送请求所用，主要的两个参数：url和callback
7.HttpResponse类：
通过响应请求返回的数据和穿入的request对象封装成一个response对象
目的是为了将请求返回的数据不仅包括返回的content数据，使其拥有更多的属性，比如请求头，请求url，请求的cookies等等
更方便的被回调函数所解析有用的数据

下面是根据自己的理解写的一个小型的scrapy框架：

from twisted.internet import reactor   # 事件循环（终止条件，所有的socket都已经移除）

from twisted.web.client import getPage # socket对象（如果下载完成，自动从时间循环中移除...）

from twisted.internet import defer     # defer.Deferred 特殊的socket对象 （不会发请求，手动移除）

from queue import Queue

class Request(object):

    """

    用于封装用户请求相关信息，供用户编写spider时发送请求所用

    """

    def __init__(self,url,callback):

        self.url = url

        self.callback = callback

class HttpResponse(object):

    """

    通过响应请求返回的数据和穿入的request对象封装成一个response对象

    目的是为了将请求返回的数据不仅包括返回的content数据，使其拥有更多的属性，比如请求头，请求url，请求的cookies等等

    更方便的被回调函数所解析有用的数据

    """

    def __init__(self,content,request):

        self.content = content

        self.request = request

        self.url = request.url

        self.text = str(content,encoding='utf-8')

class Scheduler(object):

    """

    任务调度器:

    1.初始化一个队列

    2.next_request方法：读取队列中的下一个请求

    3.enqueue_request方法：将请求加入到队列

    4.size方法：返回当前队列请求的数量

    5.open方法：无任何操作，返回一个空值，用于引擎中用装饰器装饰的open_spider方法返回一个yield对象

    """

    def __init__(self):

        self.q = Queue()

    def open(self):

        pass

    def next_request(self):

        try:

            req = self.q.get(block=False)

        except Exception as e:

            req = None

        return req

    def enqueue_request(self,req):

        self.q.put(req)

    def size(self):

        return self.q.qsize()

class ExecutionEngine(object):

    """

    引擎：所有的调度

    1.通过open_spider方法将start_requests中的每一个请求加入到scdeuler中的队列当中，

    2.处理每一个请求响应之后的回调函数（get_response_callback)和执行下一次请求的调度(_next_request)

    """

    def __init__(self):

        self._close = None

        self.scheduler = None

        self.max = 5

        self.crawlling = []

    def get_response_callback(self,content,request):

        self.crawlling.remove(request)

        response = HttpResponse(content,request)

        result = request.callback(response)

        import types

        if isinstance(result,types.GeneratorType):

            for req in result:

                self.scheduler.enqueue_request(req)

    def _next_request(self):

        """

        1.对spider对象的请求进行调度

        2.设置事件循环终止条件：调度器队列中请求的个数为0，正在执行的请求数为0

        3.设置最大并发数，根据正在执行的请求数量满足最大并发数条件对sceduler队列中的请求进行调度执行

        4.包括对请求进行下载，以及对返回的数据执行callback函数

        5.开始执行事件循环的下一次请求的调度

        """

        if self.scheduler.size() == 0 and len(self.crawlling) == 0:

            self._close.callback(None)

            return

        """设置最大并发数为5"""

        while len(self.crawlling) < self.max:

            req = self.scheduler.next_request()

            if not req:

                return

            self.crawlling.append(req)

            d = getPage(req.url.encode('utf-8'))

            d.addCallback(self.get_response_callback,req)

            d.addCallback(lambda _:reactor.callLater(0,self._next_request))

    @defer.inlineCallbacks

    def open_spider(self,start_requests):

        """

        1.创建一个调度器对象

        2.将start_requests中的每一个请求加入到scheduler队列中去

        3.然后开始事件循环执行下一次请求的调度

        注：每一个@defer.inlineCallbacks装饰的函数都必须yield一个对象，即使为None

        """

        self.scheduler = Scheduler()

        yield self.scheduler.open()

        while True:

            try:

                req = next(start_requests)

            except StopIteration as e:

                break

            self.scheduler.enqueue_request(req)

        reactor.callLater(0,self._next_request)

    @defer.inlineCallbacks

    def start(self):

        """不发送任何请求，需要手动停止，目的是为了夯住循环"""

        self._close = defer.Deferred()

        yield self._close

class Crawler(object):

    """

    1.用户封装调度器以及引擎

    2.通过传入的spider对象的路径创建spider对象

    3.创建引擎去打开spider对象，对spider中的每一个请求加入到调度器中的队列中去，通过引擎对请求去进行调度

    """

    def _create_engine(self):

        return ExecutionEngine()

    def _create_spider(self,spider_cls_path):

        """

        :param spider_cls_path:  spider.chouti.ChoutiSpider

        :return:

        """

        module_path,cls_name = spider_cls_path.rsplit('.',maxsplit=1)

        import importlib

        m = importlib.import_module(module_path)

        cls = getattr(m,cls_name)

        return cls()

    @defer.inlineCallbacks

    def crawl(self,spider_cls_path):

        engine = self._create_engine()

        spider = self._create_spider(spider_cls_path)

        start_requests = iter(spider.start_requests())

        yield engine.open_spider(start_requests) #将start_requests中的每一个请求加入到调度器的队列中去，并有引擎调度请求的执行

        yield engine.start() #创建一个defer对象，目的是为了夯住事件循环，手动停止

class CrawlerProcess(object):

    """

    1.创建一个Crawler对象

    2.将传入的每一个spider对象的路径传入Crawler.crawl方法

    3.并将返回的socket对象加入到集合中

    4.开始事件循环

    """

    def __init__(self):

        self._active = set()

    def crawl(self,spider_cls_path):

        """

        :param spider_cls_path:

        :return:

        """

        crawler = Crawler()

        d = crawler.crawl(spider_cls_path)

        self._active.add(d)

    def start(self):

        dd = defer.DeferredList(self._active)

        dd.addBoth(lambda _:reactor.stop())

        reactor.run()

class Command(object):

    """

    1.创建开始运行的命令

    2.将每一个spider对象的路径传入到crawl_process.crawl方法中去

    3.crawl_process.crawl方法创建一个Crawler对象,通过调用Crawler.crawl方法创建一个引擎和spider对象

    4.通过引擎的open_spider方法创建一个scheduler对象，将每一个spider对象加入到schedler队列中去，并且通过自身的_next_request方法对下一次请求进行调度

    5.

    """

    def run(self):

        crawl_process = CrawlerProcess()

        spider_cls_path_list = ['spider.chouti.ChoutiSpider','spider.cnblogs.CnblogsSpider',]

        for spider_cls_path in spider_cls_path_list:

            crawl_process.crawl(spider_cls_path)

        crawl_process.start()

if __name__ == '__main__':

    cmd = Command()

    cmd.run()

Scrapy框架的执行流程解析的更多相关文章

追源索骥：透过源码看懂Flink核心框架的执行流程
li,ol.inline>li{display:inline-block;padding-right:5px;padding-left:5px}dl{margin-bottom:20px}dt, ...
透过源码看懂Flink核心框架的执行流程
前言 Flink是大数据处理领域最近很火的一个开源的分布式.高性能的流式处理框架,其对数据的处理可以达到毫秒级别.本文以一个来自官网的WordCount例子为引,全面阐述flink的核心架构及执行流程 ...
轻量级前端MVVM框架avalon - 执行流程2
接上一章执行流程1 在这一大堆扫描绑定方法中应该会哪些实现? 首先我们看avalon能帮你做什么? 数据填充,比如表单的一些初始值,切换卡的各个面板的内容({{xxx}},{{xxx|html}}, ...
Spark修炼之道（进阶篇）——Spark入门到精通：第九节 Spark SQL执行流程解析
1.总体执行流程使用下列代码对SparkSQL流程进行分析.让大家明确LogicalPlan的几种状态,理解SparkSQL总体执行流程 // sc is an existing SparkCont ...
Tomcat笔记：Tomcat的执行流程解析
Bootstrap的启动 Bootstrap的main方法先new了一个自己的对象(Bootstrap),然后用该对象主要执行了四个方法: init(); setAwait(true); load(a ...
Scrapy框架的架构原理解析
爬虫框架--Scrapy 如果你对爬虫的基础知识有了一定了解的话,那么是时候该了解一下爬虫框架了.那么为什么要使用爬虫框架? 学习框架的根本是学习一种编程思想,而不应该仅仅局限于是如何使用它.从了解到 ...
Struts框架之执行流程 struts.xml 配置详细
1.执行流程服务器启动: 1. 加载项目web.xml 2. 创建Struts核心过滤器对象, 执行filter → init() struts-default.xml, 核心功能的初 ...
Struts框架的执行流程或原理
Struts2的执行流程如下: 1.浏览器发送请求,经过一系列的过滤器,到达StrutsPreapareAndExecteFilter 2.StrutsPrepareAndExectueFilter通 ...
SpringMVC学习笔记：SpringMVC框架的执行流程
一.MVC设计模式二.SpringMVC框架介绍三.SpringMVC环境搭建四.SpringMVC框架的请求处理流程及体系结构

随机推荐

redis知识汇总
redis是一个内存数据库,使用key-value形式在内存中管理数据. 一.redis使用场景 1.热数据存储.对于需要频繁读写的数据,可以放到redis中,不用频繁的请求数据库.再设置策略持久化到 ...
mosquitto发布消息
./mosquitto_pub -t '$SYS/broker/clients/status/online' -m 1
洛谷P2822 组合数问题
输入输出样例输入样例#1: 1 2 3 3 输出样例#1: 1 输入样例#2: 2 5 4 5 6 7 输出样例#2: 0 7 说明 [样例1说明] 在所有可能的情况中,只有C_2^1 = 2C21 ...
CodeForces512C-Pluses everywhere-模拟/数学/排列组合模板
经过研究可以发现,每一位的贡献是C(n-2,k-1)+C(n-3,k-1)...C(k-1,k-1) 同时还要注意加号全部在左边的情况. 这里还用了O(n)预处理O(1)组合数的模板.//妙啊..妙. ...
IDEA Failed to prepare an update: Temp directory inside installation
具体错误: Connection Error Failed to prepare an update: Temp directory inside installation: F:\IDEA_Tool ...
python成长之路二
python的print格式化输出,以及使用format来控制. 1,打印字符串(str),利用%s. >>> print ('My name is %s' % ('TaoXiao' ...
[HAOI2007] 修筑绿化带
类型:单调队列传送门:>Here< 题意:给出一个$M*N$的矩阵,每一个代表这一格土地的肥沃程度.现在要求修建一个$C*D$的矩形花坛,矩形绿化带的面积为$A*B$,要求花坛被包裹在绿 ...
RFC2544测试指标
RFC2544测试指标参考:https://wenku.baidu.com/view/3abbb5bf960590c69ec3769d.html RFC2544性能测试介绍参考:https:// ...
Install KVM Hypervisor on arrch64 Linux Server
Install KVM Hypervisor on arrch64 Linux Server 参考链接: https://wiki.ubuntu.com/ARM64/QEMU https://wiki ...
【正睿oi省选十连测】第一场
四小时写了两个暴力??自闭 [原来这就是神仙们的分量Orz rank 56/75 可以说是无比垃圾了下周目标:进步十名?[大雾 T1 题意:有n个点的图点有点权Ai 也有点权Bi = A_1 + ...

Scrapy框架的执行流程解析

Scrapy框架的执行流程解析的更多相关文章

随机推荐

热门专题