1.调度器

class Scheduler(object):
"""调度器"""
def __init__(self, engine):
"""
:param engine:引擎
"""
self.q = queue.Queue()
self.engine = engine def put(self, request):
self.q.put(request) def get(self):
try:
req = self.q.get(block=False)
except Exception as e:
req = None
return req def size(self):
return self.q.qsize()

利用队列实现调度器功能

2.引擎

class Engine(object):
"""引擎"""
def __init__(self, max=5):
"""
:param max: 最大并发数
"""
self._close = None  #用于defered对象的关闭
self.max = max
self.crawling = []  #存储正在进行处理的request
self.scheduler = Scheduler(self)  #实例化调度器 def get_response_callback(self, content, request):
     """
      1.将此request从self.crawing中删除
      2.执行爬虫对象中的回调函数
      3.若返回的结果是一个生成器,则将其遍历,并且添加到调度器中
     """
self.crawling.remove(request)
result = request.callback(content)
if isinstance(result, types.GeneratorType):
for req in result:
self.scheduler.put(req) def _next_request(self):
     """
     1.判断调度器中队列的大小是否为0和正在处理的request个数,若都为0,则表明爬虫执行完毕,self._close.callback(None)关闭Deferred对象
     2.当处理中的request数大于或等于最大并发数时,让后续等待
     3.当处理中的request数小于最大并发数时,从调度器中调取任务,并添加到self.crawling中,利用getPage下载页面,并为此对象添加回调函数get_response_callback
     4.处理完成后添加回调函数_next_request,继续下一个任务的处理
     """
if self.scheduler.size() == 0 and len(self.crawling) == 0:
self._close.callback(None)
return
if len(self.crawling) >= self.max:
return
while len(self.crawling) < self.max:
req = self.scheduler.get()
if req is None:
return
self.crawling.append(req) d = getPage(req.url.encode('utf-8'))
d.addCallback(self.get_response_callback, req)
d.addCallback(lambda _: reactor.callLater(0, self._next_request))

3.爬虫对象

class Crawler(object):
"""爬虫对象"""
def __init__(self, spidercls):
"""
:param spidercls:爬虫类
"""
self.spidercls = spidercls  
self.spider = None  #爬虫
self.engine = None  #引擎 @defer.inlineCallbacks  
def crawl(self):
     """
      1.start_request 爬取的网页地址生成器
      2.获取url,并添加到调度器中
      3.执行self,engine._next_request()来处理request
      4.self.engine._close赋值为一个Deferred对象
     """
self.engine = Engine()
self.spider = self.spidercls()
start_request = iter(self.spider.start_requests())
while 1:
try:
request = next(start_request)
self.engine.scheduler.put(request)
except StopIteration as e:
break
self.engine._next_request()
self.engine._close = defer.Deferred()
yield self.engine._close
@defer.inlineCallbacks装饰器,被装饰函数必须是一个生成器
Deferred对象是一个类似于Socket对象的一个无限循环的对象,应用程序将一连串函数添加到Deferred对象中,当异步请求的结果准备就绪时,这一连串函数将被按顺序调用(这一连串函数被称为一个callback序列,或是一
条callback链),一起添加的还有另外一连串函数,当异步请求出现错误的时候,他们将被调用(称作一个errback序列,或是一条errback链)。异步库代码会在结果准备就绪时,调用第一个callback,或是在出现错误时,
调用第一个errback,然后Deferred对象就会将callback或errback的返回结果传递给链中的下一个函数。

4.爬虫进程

class CrawlProcess(object):
"""爬虫进程"""
def __init__(self):
self._active = []    #存储每一个Deferred对象
self.crawlers = []    #要执行的爬虫的集合 def crawl(self, spidercls):
    """
      实例化Crawler,获得爬虫对象,每一个都执行crawl函数,添加到_active,实现后续并发
    """
crawler = Crawler(spidercls,)
self.crawlers.append(crawler)
d = crawler.crawl()
self._active.append(d)
return d def start(self):
     """
      开始处理Deferred对象,当所有的Deferred对象的回调函数都被触发,利用callback(None)结束之后,执行匿名函数关闭reactor
     """
dd = defer.DeferredList(self._active)
dd.addBoth(lambda _: reactor.stop())
reactor.run()

爬虫的实例化,和爬取工作的开启

5.Request

class Request(object):
def __init__(self, url, callback):
"""
:param url: 网址
:param callback:回调函数
"""
self.url = url
self.callback = callback

用于存储爬虫每一个url与其对应的处理函数。

6.main

if __name__ == '__main__':
spider_cls_list = []        #添加爬虫类名
crawler_process = CrawlProcess()
for spider_cls in spider_cls_list:
crawler_process.crawl(spider_cls)
crawler_process.start()

7.spider

class XXXSpider(object):

    name = XXX'

    def start_requests(self):
start_url = []
for url in start_url:
yield Request(url, self.parse) def parse(self, response):
print(response)

爬虫类格式,parse为回调函数,后续还能继续添加回调函数

爬虫之进阶 基于twisted实现自制简易scrapy框架(便于对scrapy源码的理解)的更多相关文章

  1. (转载)基于Unity~UGUI的简单UI框架(附UIFramework源码)

    此博客跟随siki老师的课程笔记生成,感谢siki老师的辛勤付出! 此框架功能较简单,适用于学习,可以很好的锻炼我们的设计思想 框架源码地址: UIFramework litjson.dll下载地址: ...

  2. 基于双向BiLstm神经网络的中文分词详解及源码

    基于双向BiLstm神经网络的中文分词详解及源码 基于双向BiLstm神经网络的中文分词详解及源码 1 标注序列 2 训练网络 3 Viterbi算法求解最优路径 4 keras代码讲解 最后 源代码 ...

  3. 基于Docker的TensorFlow机器学习框架搭建和实例源码解读

    概述:基于Docker的TensorFlow机器学习框架搭建和实例源码解读,TensorFlow作为最火热的机器学习框架之一,Docker是的容器,可以很好的结合起来,为机器学习或者科研人员提供便捷的 ...

  4. 爬虫(十四):Scrapy框架(一) 初识Scrapy、第一个案例

    1. Scrapy框架 Scrapy功能非常强大,爬取效率高,相关扩展组件多,可配置和可扩展程度非常高,它几乎可以应对所有反爬网站,是目前Python中使用最广泛的爬虫框架. 1.1 Scrapy介绍 ...

  5. Node 进阶:express 默认日志组件 morgan 从入门使用到源码剖析

    本文摘录自个人总结<Nodejs学习笔记>,更多章节及更新,请访问 github主页地址.欢迎加群交流,群号 197339705. 章节概览 morgan是express默认的日志中间件, ...

  6. python爬虫---scrapy框架爬取图片,scrapy手动发送请求,发送post请求,提升爬取效率,请求传参(meta),五大核心组件,中间件

    # settings 配置 UA USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, l ...

  7. OpenCV 基于超像素分割的图像区域选取方法及源码

    本系列文章由 @yhl_leo 出品,转载请注明出处. 文章链接: http://blog.csdn.net/yhl_leo/article/details/51386993 工程源码GitHub: ...

  8. C#使用Xamarin开发可移植移动应用进阶篇(7.使用布局渲染器,修改默认布局),附源码

    前言 系列目录 C#使用Xamarin开发可移植移动应用目录 源码地址:https://github.com/l2999019/DemoApp 可以Star一下,随意 - - 说点什么.. 本篇..基 ...

  9. C#使用Xamarin开发可移植移动应用进阶篇(8.打包生成安卓APK并精简大小),附源码

    前言 系列目录 C#使用Xamarin开发可移植移动应用目录 源码地址:https://github.com/l2999019/DemoApp 可以Star一下,随意 - - 说点什么.. 嗯,前面讲 ...

随机推荐

  1. 如何实现Proxifier只代理部分程序

    转载自:https://jingyan.baidu.com/article/48b558e35e12f97f38c09a28.html 小编工作时上外网要通过局域网内其他人开代理,然后通过IE代理上网 ...

  2. HashMap解读

    个人理解,欢迎提出问题

  3. MySQL 索引的增删查

    查看索引: > SHOW INDEX FROM table_name; > SHOW KEYS FROM table_name;   删除索引: > DROP INDEX index ...

  4. JavaScript 原型和对象创建底层原理

    1. prototype/__proto__/constructor JS原型链和继承网上已经烂大街了,5毛可以买一堆,这里只提一下: constructor:普通对象和函数对象都有,指向创建它的函数 ...

  5. 记一次gitlab-ce数据恢复过程

    使用的gitlab是用docker启动的,数据目录的owner/group信息被意外全部更改成了root:root导致服务不可用.最终通过复原文件所有者的方式恢复了服务. 步骤如下: 1. 打包备份g ...

  6. 【java】之算法复杂度o(1), o(n), o(logn), o(nlogn)

    在描述算法复杂度时,经常用到o(1), o(n), o(logn), o(nlogn)来表示对应算法的时间复杂度, 这里进行归纳一下它们代表的含义: 这是算法的时空复杂度的表示.不仅仅用于表示时间复杂 ...

  7. 禅知Pro 1.6 前台任意文件读取 | 代码审计

    禅知 Pro v1.6 前台任意文件读取 | 代码审计 蝉知专业版是基于蝉知企业门户系统开源版开发,继承了蝉知本身的优秀功能.相对于蝉知开源版增强了商品的属性自定义.属性价格定制.物流跟踪.微信支付. ...

  8. 算法——001BitMap(位图)算法

    哈希表在查找定位操作上具有O(1)的常量时间,常用于做性能优化,但是内存毕竟是有限的,当数据量太大时用哈希表就会内存溢出了.而考虑对这些大数据进行存盘分批处理又有IO上的开销,性能又不能满足要求.这个 ...

  9. maven教程全攻略

    maven教程全攻略 我们在开发项目的过程中,会使用一些开源框架.第三方的工具等等,这些都是以jar包的方式被项目所引用,并且有些jar包还会依赖其他的jar包,我们同样需要添加到项目中,所有这些相关 ...

  10. samba、ftp和ssh服务

    samba服务 Smb主要作为网络通信协议; Smb是基于cs架构: 完成Linux与windows之间的共享:linux与linux之间共享用NFS 第一步:安装samba [root@ken ~] ...