scrapy的Middleware

对于下载中间件

settings里的数字大小：

process_request的顺序数字越小，越先调用
process_response 的顺序，数字越大，越先调用

返回值：

process_request：【None :继续调用下一个中间件的process_request方法；】

　　　　　　　　　【Response object:预示着下载已经完成，就以返回的response作为下载结果，进而开始调用process_response方法】

　　　　　　　　　【Request object: 将这个请求request添加到任务队列中，当前的request的process_request流程就结束了，没有其他操作了】

　　　　　　　　　【抛出IgnoreRequest异常：将调用process_exception()，process_exception()如果没有处理该异常，则会继续调用errback来处理，如果errback

　　　　　　　　　　中也没有对它处理的，就会忽视该异常】

process_response : 【Response :这个response可以是传过来的response，也可以是一个新的response，将继续调用下一个process_response】

　　　　　　　　　　【Request :这个request将被添加到请求队列，然后该response的process_response流程就结束了】

　　　　　　　　　　【抛出IgnoreRequest异常：将调用request.errback方法处理，如果该方法中没有对此异常进行处理，此异常将被忽视】

process_exception : 【None : 继续调用其他process_exception处理这个异常】

　　　　　　　　　　【Response object:开始调用process_response方法】

　　　　　　　　　　【Request object: 此request将被添加到请求队列，process_exception流程就结束了】

process_exception是在下载处理器（download handler）或下载中间件的process_request抛出异常时被调用的。

from_crawler : 这个方法是scrapy的核心属性的一个入口，用于创建中间件实例。如果需要用到signals,settings，spiders等，可以通过crawler.settings这种操作来

获取，cls(crawler.stats)是调用这个方法所在的class来实例化一个对象，crawler.stats相当于传给__init__(self,stats)的参数stats

@classmethod

from_crawler(cls,crawler):

　　instance = cls(crawler.stats)

　　return instance

自定义retry中间件

from scrapy.downloadermiddlewares.retry import RetryMiddleware

import time

class CustomRetryMiddleware(RetryMiddleware):

def __init__(self,settings):

self.request_error = 0

super(CustomRetryMiddleware, self).__init__(settings)

def process_response(self, request, response, spider):

if request.meta.get('dont_retry', False):

return response

if response.status in self.retry_http_codes:

if response.status==429: #在这里可以添加一些逻辑，在重试请求之前，

spider.logger.info("[response]retry Middleware,Got 429 error,would stop 6 minutes,%s",request.url)

time.sleep(60*6)

spider.logger.info("[response]Retry Middleware ,response.status :%d,will start retry request,%s",response.status,request.url)

reason = response_status_message(response.status)

return self._retry(request, reason, spider) or response

return response

def process_exception(self, request, exception, spider):

if isinstance(exception, self.EXCEPTIONS_TO_RETRY) \

and not request.meta.get('dont_retry', False):

spider.logger.info("[exception]Retry Middleware ,exception :%s,will start retry request,%s",exception,request.url)

#返回一个request,到schedule中，等待下载，从重新走所有的middleware。

return self._retry(request, exception, spider)

要启用自定义的retry middleware ,需要将默认的RetryMiddleware设置为None

'DOWNLOADER_MIDDLEWARES' :{

'dayspider.middlewares.my_retry_middleware.CustomRetryMiddleware': 550,
'scrapy.downloadermiddlewares.retry.RetryMiddleware' : None,
},

下载异常

像是响应超时，网络连接异常， forbidden 502这类的没有response的异常直接被process_exception 捕获
像是 429（请求太频繁，403（禁止访问）500（服务器端返回一个表示错误的代码），有收到response的异常，可以用process_response进行处理

scrapy的Middleware的更多相关文章

Scrapy Spider MiddleWare 设置
# -*- coding: utf-8 -*- # Define here the models for your spider middleware # # See documentation in ...
python爬虫scrapy之downloader_middleware设置proxy代理
一.背景: 小编在爬虫的时候肯定会遇到被封杀的情况,昨天爬了一个网站,刚开始是可以了,在settings的设置DEFAULT_REQUEST_HEADERS伪装自己是chrome浏览器,刚开始是可以的 ...
Scrapy 增加随机请求头 user_agent
原文: 为什么要增加随机请求头:更好地伪装浏览器,防止被 Ban. 如何在每次请求时,更换不同的 user_agent,Scrapy 使用 Middleware 即可 Spider 中间件 (Midd ...
Scrapy+Chromium+代理+selenium
上周说到scrapy的基本入门.这周来写写其中遇到的代理和js渲染的坑. js渲染 js是爬虫中毕竟麻烦处理的一块.通常的解决办法是通过抓包,然后查看request信息,接着捕获ajax返回的消息.但 ...
webmagic的设计机制及原理-如何开发一个Java爬虫
之前就有网友在博客里留言,觉得webmagic的实现比较有意思,想要借此研究一下爬虫.最近终于集中精力,花了三天时间,终于写完了这篇文章.之前垂直爬虫写了一年多,webmagic框架写了一个多月,这方 ...
webmagic 增量爬取
webmagic 是一个很好并且很简单的爬虫框架,其教程网址:http://my.oschina.net/flashsword/blog/180623 webmagic参考了scrapy的模块划分, ...
webmagic的设计机制及原理-如何开发一个Java爬虫转
此文章是webmagic 0.1.0版的设计手册,后续版本的入门及用户手册请看这里:https://github.com/code4craft/webmagic/blob/master/user-ma ...
Python爬虫从入门到放弃（十七）之 Scrapy框架中Download Middleware用法
这篇文章中写了常用的下载中间件的用法和例子.Downloader Middleware处理的过程主要在调度器发送requests请求的时候以及网页将response结果返回给spiders的时候,所以 ...
Python爬虫从入门到放弃（二十三）之 Scrapy的中间件Downloader Middleware实现User-Agent随机切换
总架构理解Middleware 通过scrapy官网最新的架构图来理解: 这个图较之前的图顺序更加清晰,从图中我们可以看出,在spiders和ENGINE提及ENGINE和DOWNLOADER之间都可 ...

随机推荐

栈ADT
栈栈是限制插入和删除只能在同一位置的表,这一位置称为栈顶(top),也可能称为LIFO表对于空栈的pop(弹栈)操作是一个ADT错误,但是若是push(压栈)时空间超限并不是ADT错误实现:基于 ...
Java基础（变量数&常量&据类型&类型转换）
什么是变量: 变量就是一个不固定的数值,它随时会改变,就像银行卡里存的钱一样会变动. 变量的格式:1 数据类型变量名=变量值: 2 数据类型变量名: 变量名=变量值: 变量的三大要素:1变量 ...
puppeteer（一）环境搭建——新Web自动化工具（同selenium）
一.简介 https://github.com/GoogleChrome/puppeteer Puppeteer是一个Node库,它提供了一个高级API来控制DevTools协议上的 Chrome或C ...
Flip Game （高斯消元 || dfs）
Flip game is played on a rectangular 4x4 field with two-sided pieces placed on each of its 16 square ...
2014西安赛区C题
将A[i]同他后面比他小的建边,然后求最大密度子图 #include <iostream> #include <algorithm> #include <string.h ...
基于Jenkins实现持续集成【持续更新中】
持续集成 1.什么是持续集成:Continuous integration (CI)持续集成是一种软件开发实践,即团队开发成员经常集成他们的工作,通常每个成员每天至少集成一次,也就意味着每天可能会发生 ...
面试常问Spring IOC，不得不会。
广义的 IOC IoC(Inversion of Control) 控制反转,即“不用打电话过来,我们会打给你”. 两种实现: 依赖查找(DL)和依赖注入(DI). IOC 和 DI .DL 的关系( ...
622 CircularQueue C#
public class MyCircularQueue { int[] Queue=null; int _Front = 0; int _Rear = 0; int Length = 0; int ...
Docker常用命令详解
docker ps 查看当前正在运行的容器 docker ps -a 查看所有容器的状态 docker start/stop id/name 启动/停止某个容器 docker attach id 进入 ...
python多进程apply与apply_async的区别
为什么会这样呢? 因为进程的切换是操作系统来控制的,抢占式的切换模式. 我们首先运行的是主进程,cpu运行很快啊,这短短的几行代码,完全没有给操作系统进程切换的机会,主进程就运行完毕了,整个程序结束. ...

scrapy的Middleware

scrapy的Middleware的更多相关文章

随机推荐

热门专题