Downloader Middleware

downloader middleware作用：改写请求，如加入代理，加入头部等；处理异常等。

# downloadMiddleware举例, 加代理

# 这里的类如果已经重新设置名称,记得在settings里面开启的时候改成这个名称

class ProxyMiddleware(object):

    # logging模块负责输出调试信息,记录程序错误等

    logger = logging.getLogger(__name__)

    # process_request如果返回

    # 1: 如果返回None, 则对整个环节没什么影响,会继续执行其他操作

    # 2: 如果返回response,则不再调用其他中间键的process_request,而是直接调用process_response,直接处理该方法返回的response

    # 3: 如果返回request,则把request重新放到调度队列,进行循环调用

    # 4: 如果返回IgnoreRequest异常,则会启用异常处理方法

    # 一:改写请求过程

    # 对请求环节进行重写,这一切发生在请求之前,比如加一个头部或者代理,用来控制程序如何请求

    # 处理request环节,如加代理

    # def process_request(self, request, spider):

    #     self.logger.debug('Using proxy...')

    #     # 在这里即把一个键为proxy赋值给meta,meta相当于一个容器,在这里存放代理ip

    #     request.meta['proxy'] = 'http://61.52.157.66:53281'

    #

    # 二:改写结果

    # process_response如果返回

    # 1:如果返回response,对其他中间键没什么影响,其他会照常执行

    # 2:如果返回Request,则会重新发起请求,加入到调度中心

    # 3:如果返回IgnoreRequest exception,则会调用异常处理的方法

    # 以下为处理response环节,比如改写response的状态码

    def process_response(self, request, response, spider):

        response.status_code = 201

        return response

    # 三:异常处理

    # process_exception异常处理

    # 1: 如果返回None,则不影响其他操作,继续执行process_exception

    # 2: 如果返回response,表明已经成功返回,那么就会执行其他中间键的process_response

    # 3: 如果返回request,则把request重新加入到调度队列,可以利用这一点进行失败重试

    def process_exception(self, request, exception, spider):

        # 我们这里建立捕捉到异常后进行重新发起请求,记得 改settings里面的ROBOTSTXT_OBEY = False

        # 用self.logger输出调试信息,代表此时已经出错了

        self.logger.debug('已经出错了')

        self.logger.debug('开始尝试代理')

        # 这时将,request重新设置一下,传入meta的新代理地址,返回的全新的request会重新加入到队列进行请求

        request.meta['proxy'] = 'http://1.255.53.81:80'

        return request

       #异常处理对应的spider

class GoogleSpider(scrapy.Spider):

    name = "google"

    allowed_domains = ["www.google.com"]

    start_urls = ['http://www.google.com/']

    # 我们还记得有了start_url, 默认是由start_request遍历start_urls列表,并且调用make_request_from_url,进行请求

    # 这里重新写了make_request_from_url,里面的参数进行重新加载,设置如果超时时间为10秒,如果超出10秒,则会抛出异常

    # 如果请求不到,终端会频繁打出retry,可以在settings里面禁止,设置方法为:'scrapy.downloadermiddlewares.retry.RetryMiddleware':None,

    def make_requests_from_url(self, url):

        self.logger.debug('第一次请求')

        return scrapy.Request(url=url, meta={'download_timeout':10},callback=self.parse,dont_filter=True)

    def parse(self, response):

        print(response.text)

Downloader Middleware的更多相关文章

Python爬虫从入门到放弃（二十三）之 Scrapy的中间件Downloader Middleware实现User-Agent随机切换
总架构理解Middleware 通过scrapy官网最新的架构图来理解: 这个图较之前的图顺序更加清晰,从图中我们可以看出,在spiders和ENGINE提及ENGINE和DOWNLOADER之间都可 ...
Scrapy学习篇（十）之下载器中间件（Downloader Middleware）
下载器中间件是介于Scrapy的request/response处理的钩子框架,是用于全局修改Scrapy request和response的一个轻量.底层的系统. 激活Downloader Midd ...
scrapy之 downloader middleware
一. 功能说明 Downloader Middleware有三个核心的方法 process_request(request, spider) process_response(request, res ...
爬虫--Scrapy之Downloader Middleware
下载器中间件(Downloader Middleware) 下载器中间件是介于Scrapy的request/response处理的钩子框架. 是用于全局修改Scrapy request和respons ...
Scrapy框架学习（三）Spider、Downloader Middleware、Spider Middleware、Item Pipeline的用法
Spider有以下属性: Spider属性 name 爬虫名称,定义Spider名字的字符串,必须是唯一的.常见的命名方法是以爬取网站的域名来命名,比如爬取baidu.com,那就将Spider的名字 ...
Scrapy框架——介绍、安装、命令行创建，启动、项目目录结构介绍、Spiders文件夹详解（包括去重规则）、Selectors解析页面、Items、pipelines（自定义pipeline）、下载中间件（Downloader Middleware）、爬虫中间件、信号
一介绍 Scrapy一个开源和协作的框架,其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的,使用它可以以快速.简单.可扩展的方式从网站中提取所需的数据.但目前Scrapy的用途十分广泛,可 ...
小白学 Python 爬虫（36）：爬虫框架 Scrapy 入门基础（四） Downloader Middleware
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
爬虫(十五)：Scrapy框架(二) Selector、Spider、Downloader Middleware
1. Scrapy框架 1.1 Selector的用法我们之前介绍了利用Beautiful Soup.正则表达式来提取网页数据,这确实非常方便.而Scrapy还提供了自己的数据提取方法,即Selec ...
Python之爬虫（二十五） Scrapy的中间件Downloader Middleware实现User-Agent随机切换
总架构理解Middleware 通过scrapy官网最新的架构图来理解: 这个图较之前的图顺序更加清晰,从图中我们可以看出,在spiders和ENGINE提及ENGINE和DOWNLOADER之间都可 ...

随机推荐

sh, 批量执行Linux命令
step 1:创建一个sh批处理命令文件 # vim /etc/batch_ssh/install_redis.sh step 2:给当前用户,能够执行sh脚本权限# chmod install_re ...
spring 文件模板下载多种实现方式
针对于文件的下载,我们有很多种实现方式.业务场景是这样子的,要实现Excel文件的导入和导出功能,问题对于java的POI操作没有问题,所以实现文件的下载就相对简单,只需要从数据库取出相关的数据,针对 ...
ubuntu apt-get安装、卸载软件命令及如何查看日志
linux亮红灯的我,开始学习linux,学习使我快乐,大家一起来学习... 1.安装软件命令 sudo apt-get apache2 安装apache,安装在默认路径下,指定路径安装,其实 ...
kvm之六：配置kvm虚拟机通过VNC访问
1.网络安装的snale2没有添加VNC访问方式,配置如下 [root@kvm ~ ::]#virsh edit snale2 插入如下配置: <graphics type=' autoport ...
Thinkjs关系数据库学习——查询数据
模型提供了多种方法来查询数据: find 查询单条数据 select 查询多条数据 count 查询总条数 countSelect 分页查询数据 max 查询字段的最大值 avg 查询字段的平均值 m ...
php设计模式七 ---组合模式
1.介绍组合模式(Composite Pattern),又叫部分整体模式,是用于把一组相似的对象当作一个单一的对象.组合模式依据树形结构来组合对象,用来表示部分以及整体层次.这种类型的设计模式属于结 ...
Beta Scrum Day 1
听说
实验四 Android程序设计实验报告
实验四 Android程序设计实验报告目录代码托管地址 Android程序设计-1 Android程序设计-2 Android程序设计-3 Android程序设计-4 Android程序设计-5 ...
2017-2018-1 20155205 实现mypwd
2017-2018-1 20155205 实现mypwd 课堂总结根据上课对ls -l功能的实现,我总结了实现一个linux命令需要的步骤: 使用man -k xx | grep xx查看帮助文档, ...
Linux下硬盘分区
1 fdisk -l查看硬盘及分区信息我的系统(Archlinux)下的命令效果如下: 由上面的图片可以得知该系统只挂载了1个硬盘,命名为sda,其有2个主分区,sda1和sda2,至于为什么这么 ...

Downloader Middleware

Downloader Middleware的更多相关文章

随机推荐

热门专题