爬虫之进阶基于twisted实现自制简易scrapy框架（便于对scrapy源码的理解）

1.调度器

class Scheduler(object):

    """调度器"""

    def __init__(self, engine):

        """

        :param engine:引擎

        """

        self.q = queue.Queue()

        self.engine = engine

    def put(self, request):

        self.q.put(request)

    def get(self):

        try:

            req = self.q.get(block=False)

        except Exception as e:

            req = None

        return req

    def size(self):

        return self.q.qsize()

利用队列实现调度器功能

2.引擎

class Engine(object):

    """引擎"""

    def __init__(self, max=5):

        """

        :param max: 最大并发数

        """

        self._close = None　　#用于defered对象的关闭

        self.max = max

        self.crawling = []　　#存储正在进行处理的request

        self.scheduler = Scheduler(self)　　#实例化调度器

    def get_response_callback(self, content, request):
　　　　 """
　　　　　　1.将此request从self.crawing中删除
　　　　　　2.执行爬虫对象中的回调函数
　　　　　　3.若返回的结果是一个生成器，则将其遍历，并且添加到调度器中
　　　　 """

        self.crawling.remove(request)

        result = request.callback(content)

        if isinstance(result, types.GeneratorType):

            for req in result:

                self.scheduler.put(req)

    def _next_request(self):
　　　　　"""
　　　　　1.判断调度器中队列的大小是否为0和正在处理的request个数，若都为0，则表明爬虫执行完毕，self._close.callback(None)关闭Deferred对象
　　　　  2.当处理中的request数大于或等于最大并发数时，让后续等待
　　　　　3.当处理中的request数小于最大并发数时，从调度器中调取任务，并添加到self.crawling中，利用getPage下载页面，并为此对象添加回调函数get_response_callback
　　　　　4.处理完成后添加回调函数_next_request，继续下一个任务的处理
　　　　  """

        if self.scheduler.size() == 0 and len(self.crawling) == 0:

            self._close.callback(None)

            return

        if len(self.crawling) >= self.max:

            return

        while len(self.crawling) < self.max:

            req = self.scheduler.get()

            if req is None:

                return

            self.crawling.append(req)

            d = getPage(req.url.encode('utf-8'))

            d.addCallback(self.get_response_callback, req)

            d.addCallback(lambda _: reactor.callLater(0, self._next_request))

3.爬虫对象

class Crawler(object):

    """爬虫对象"""

    def __init__(self, spidercls):

        """

        :param spidercls:爬虫类

        """

        self.spidercls = spidercls　　

        self.spider = None　　#爬虫

        self.engine = None　　#引擎

    @defer.inlineCallbacks　　

    def crawl(self):
　　　　　"""
　　　　　　1.start_request 爬取的网页地址生成器
　　　　　　2.获取url，并添加到调度器中
　　　　　　3.执行self,engine._next_request()来处理request
　　　　　　4.self.engine._close赋值为一个Deferred对象
　　　　  """

        self.engine = Engine()

        self.spider = self.spidercls()

        start_request = iter(self.spider.start_requests())

        while 1:

            try:

                request = next(start_request)

                self.engine.scheduler.put(request)

            except StopIteration as e:

                break

        self.engine._next_request()

        self.engine._close = defer.Deferred()

        yield self.engine._close

@defer.inlineCallbacks装饰器，被装饰函数必须是一个生成器

Deferred对象是一个类似于Socket对象的一个无限循环的对象，应用程序将一连串函数添加到Deferred对象中，当异步请求的结果准备就绪时，这一连串函数将被按顺序调用（这一连串函数被称为一个callback序列，或是一
条callback链），一起添加的还有另外一连串函数，当异步请求出现错误的时候，他们将被调用（称作一个errback序列，或是一条errback链）。异步库代码会在结果准备就绪时，调用第一个callback，或是在出现错误时，
调用第一个errback，然后Deferred对象就会将callback或errback的返回结果传递给链中的下一个函数。

4.爬虫进程

class CrawlProcess(object):

    """爬虫进程"""

    def __init__(self):

        self._active = []　　　　#存储每一个Deferred对象

        self.crawlers = []　　　 #要执行的爬虫的集合

    def crawl(self, spidercls):
　　　　"""
　　　　　　实例化Crawler，获得爬虫对象，每一个都执行crawl函数，添加到_active,实现后续并发
　　　　"""

        crawler = Crawler(spidercls,)

        self.crawlers.append(crawler)

        d = crawler.crawl()

        self._active.append(d)

        return d

    def start(self):
　　　　 """
　　　　　　开始处理Deferred对象，当所有的Deferred对象的回调函数都被触发，利用callback(None)结束之后，执行匿名函数关闭reactor
　　　　 """

        dd = defer.DeferredList(self._active)

        dd.addBoth(lambda _: reactor.stop())

        reactor.run()

爬虫的实例化，和爬取工作的开启

5.Request

class Request(object):

    def __init__(self, url, callback):

        """

        :param url: 网址

        :param callback:回调函数

        """

        self.url = url

        self.callback = callback

用于存储爬虫每一个url与其对应的处理函数。

6.main

if __name__ == '__main__':

    spider_cls_list = []   　　 　　　　#添加爬虫类名

    crawler_process = CrawlProcess()

    for spider_cls in spider_cls_list:

        crawler_process.crawl(spider_cls)

    crawler_process.start()

7.spider

class XXXSpider(object):

    name = XXX'

    def start_requests(self):

        start_url = []

        for url in start_url:

            yield Request(url, self.parse)

    def parse(self, response):

        print(response)

爬虫类格式，parse为回调函数，后续还能继续添加回调函数

爬虫之进阶基于twisted实现自制简易scrapy框架（便于对scrapy源码的理解）的更多相关文章

(转载)基于Unity~UGUI的简单UI框架（附UIFramework源码）
此博客跟随siki老师的课程笔记生成,感谢siki老师的辛勤付出! 此框架功能较简单,适用于学习,可以很好的锻炼我们的设计思想框架源码地址: UIFramework litjson.dll下载地址: ...
基于双向BiLstm神经网络的中文分词详解及源码
基于双向BiLstm神经网络的中文分词详解及源码基于双向BiLstm神经网络的中文分词详解及源码 1 标注序列 2 训练网络 3 Viterbi算法求解最优路径 4 keras代码讲解最后源代码 ...
基于Docker的TensorFlow机器学习框架搭建和实例源码解读
概述:基于Docker的TensorFlow机器学习框架搭建和实例源码解读,TensorFlow作为最火热的机器学习框架之一,Docker是的容器,可以很好的结合起来,为机器学习或者科研人员提供便捷的 ...
爬虫(十四)：Scrapy框架(一) 初识Scrapy、第一个案例
1. Scrapy框架 Scrapy功能非常强大,爬取效率高,相关扩展组件多,可配置和可扩展程度非常高,它几乎可以应对所有反爬网站,是目前Python中使用最广泛的爬虫框架. 1.1 Scrapy介绍 ...
Node 进阶：express 默认日志组件 morgan 从入门使用到源码剖析
本文摘录自个人总结<Nodejs学习笔记>,更多章节及更新,请访问 github主页地址.欢迎加群交流,群号 197339705. 章节概览 morgan是express默认的日志中间件, ...
python爬虫---scrapy框架爬取图片,scrapy手动发送请求,发送post请求,提升爬取效率,请求传参(meta),五大核心组件,中间件
# settings 配置 UA USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, l ...
OpenCV 基于超像素分割的图像区域选取方法及源码
本系列文章由 @yhl_leo 出品,转载请注明出处. 文章链接: http://blog.csdn.net/yhl_leo/article/details/51386993 工程源码GitHub: ...
C#使用Xamarin开发可移植移动应用进阶篇(7.使用布局渲染器,修改默认布局),附源码
前言系列目录 C#使用Xamarin开发可移植移动应用目录源码地址:https://github.com/l2999019/DemoApp 可以Star一下,随意 - - 说点什么.. 本篇..基 ...
C#使用Xamarin开发可移植移动应用进阶篇(8.打包生成安卓APK并精简大小),附源码
前言系列目录 C#使用Xamarin开发可移植移动应用目录源码地址:https://github.com/l2999019/DemoApp 可以Star一下,随意 - - 说点什么.. 嗯,前面讲 ...

随机推荐

Linux环境下使用Android NDK编译c/c++生成可执行文件
1.安装Android NDK至Linux(Lubuntu 16) 从网上下载 android-ndk-r13b-linux-x86_64.zip,本人将其解压至/home/guanglun/work ...
ASP.NET CORE 3 安装遇到的问题
最近在研究 ASP.NET CORE, visualstudio2019 也已正式发布,本以为安装vs2019后就默认支持asp.net core 3,谁知是不支持的,需单独安装net core 3及 ...
Ubuntu 15.10 下Scala 操作Redis Cluster
1 前言 Redis Standalone,Redis Cluster的安装在前面介绍过,地址:http://www.cnblogs.com/liuchangchun/p/5063477.html,这 ...
7.4 electirc.c -- 计算电费
// 7.4 electirc.c -- 计算电费 #include <stdio.h> #define RATE1 0.13230 // 首次使用 360 kwh 的费率 #define ...
note 12 集合Set
集合Set +无序不重复元素(键)集 +和字典类似,但是无"值" 创建 x = set() x = {key1,key2,...} 添加和删除 x.add('body') x.re ...
提问：MicrosoftUnderlying input stream returned zero bytes
报错信息:MicrosoftUnderlying input stream returned zero bytes 报错截图: 查阅资料后,提示 jdbc的bug,不能将一个"NULL&qu ...
CDNI - RFC7336翻译
CDNI框架摘要本文档提出了CDNI的一个框架.框架的目的是提供对CDNI问题空间的总体描述,和描述CDN互连所需的各种组件之间的关系.CDNI需要指定接口和机制解决诸如请求路由,分发交换元数据 ...
（二）获取Access_token
获取access_token access_token是公众号的全局唯一接口调用凭据,公众号调用各接口时都需使用access_token.开发者需要进行妥善保存.access_token的存储至少要保 ...
git 入门与应用
git可视化界面的项目版本控制软件,适用于git项目管理 SourceTree 安装方法 https://blog.csdn.net/qq_26230421/article/details/79921 ...
Exp2 后门原理与实践 20164311
实验一:使用netcat获取主机操作Shell,cron启动 1.Windows获得Linux Shell (1)打开本机win10的cmd.exe,使用命令 ipconfig 查看win10的IP地 ...

爬虫之进阶 基于twisted实现自制简易scrapy框架（便于对scrapy源码的理解）

1.调度器

2.引擎

4.爬虫进程

5.Request

6.main

7.spider

爬虫之进阶 基于twisted实现自制简易scrapy框架（便于对scrapy源码的理解）的更多相关文章

随机推荐

热门专题

爬虫之进阶基于twisted实现自制简易scrapy框架（便于对scrapy源码的理解）

爬虫之进阶基于twisted实现自制简易scrapy框架（便于对scrapy源码的理解）的更多相关文章