scrapy mid中间件一般处理方法

import user_agent

import requests

class UA_midd(object):

    def process_request(self,request,spider):

        request.headers['User-Agent'] = user_agent.generate_user_agent()

        referer = request.url

        if referer:

            request.headers['Referer'] = referer

class Proxy_midd(object):

    def __init__(self):

        self.ip = ''

        self.url = 'http://188.131.212.24:5010/get/'

        self.count = 0

    def process_request(self, request, spider):

        if self.count == 0 or self.count >=20:

            res = requests.get(url=self.url).content.decode()

            if not 'no' in res:

                self.ip = res

            self.count = 1

        if self.ip:

            request.meta['proxy'] = 'http://' + self.ip

            self.count += 1

        else:

            self.count += 5

    def process_exception(self, request, exception, spider):

        if isinstance(request,TimeoutError):

            self.count += 20

            return request

单纯的处理ua和ip的功能

# 如果你是通过cookies池进行维护的,请请求不过是的cokies

# 注意在中间件中设置cookies是字典化的

import json

import requests

class cookies_mid(object):

        def __init__(self):

            slef.cookies_url = '你维护的cookies池'

        def process_request(self,request,spider):

            request.cookies = self.get_cookies()                        

        def get_cookies(self):

            cookies = requests.get(self.cookies_url).content.decode()

            if cookies:

                return json.loads(cookies)

cookies更换

有关资料 https://blog.csdn.net/sc_lilei/article/details/80702449

scrapy mid中间件一般处理方法的更多相关文章

Scrapy 框架中间件，信号，定制命令
中间件下载器中间件写中间件 from scrapy.http import HtmlResponse from scrapy.http import Request class Md1(objec ...
彻底搞懂Scrapy的中间件（三）
在前面两篇文章介绍了下载器中间件的使用,这篇文章将会介绍爬虫中间件(Spider Middleware)的使用. 爬虫中间件爬虫中间件的用法与下载器中间件非常相似,只是它们的作用对象不同.下载器中间 ...
彻底搞懂Scrapy的中间件（一）
中间件是Scrapy里面的一个核心概念.使用中间件可以在爬虫的请求发起之前或者请求返回之后对数据进行定制化修改,从而开发出适应不同情况的爬虫. "中间件"这个中文名字和前面章节讲到 ...
scrapy之中间件
中间件的简介 1.中间件的作用在scrapy运行的整个过程中,对scrapy框架运行的某些步骤做一些适配自己项目的动作. 例如scrapy内置的HttpErrorMiddleware,可以在http ...
scrapy的中间件Downloader Middleware实现User-Agent随机切换
scrapy的中间件Download Middleware实现User-Agent随机切换总架构理解Middleware 通过scrapy官网最新的架构图来理解: 从图中我们可以看出,在spid ...
scrapy下载中间件结合selenium抓取全国空气质量检测数据
1.所需知识补充 1.下载中间件常用函数 process_request(self, request, spider): 当每个request通过下载中间件是,该方法被调用 process_reque ...
Scrapy的中间件（一）
中间件是Scrapy里面的一个核心概念.使用中间件可以在爬虫的请求发起之前或者请求返回之后对数据进行定制化修改,从而开发出适应不同情况的爬虫. "中间件"这个中文名字和前面章节讲到 ...
Scrapy的中间件（二）
爬虫中间件爬虫中间件的用法与下载器中间件非常相似,只是它们的作用对象不同.下载器中间件的作用对象是请求request和返回response:爬虫中间件的作用对象是爬虫,更具体地来说,就是写在spid ...
爬虫（十四）：scrapy下载中间件
下载器中间件是介于Scrapy的request/response处理的钩子框架,是用于全局修改Scrapy request和response的一个轻量.底层的系统. 激活Downloader Midd ...

随机推荐

java课java方法动手动脑
动手动脑: import java.util.Scanner; public class Random { public static void main(String[] args) { ...
百度AI技术
利用百度提供接口,实现智能语音语音合成 -- TTS(text to speech) 注册在 ai.baidu.com 页面中点击控制台 ,弹出登陆 / 注册页面创建应用登陆成功后,点击左侧 ...
Qt QImag图像保存、格式转换
图像保存bool QImage::save(const QString &fileName, const char *format = Q_NULLPTR, int quality = -1) ...
EventBus 3.0 的基本使用
EventBus 3.0 的基本使用 1.什么是EventBus? EventBus 是一个Android端优化的publish/subscribe消息总线,简化了应用程序内各组件间.组件与后台线程间 ...
【GBK、UTF-8、ISO8859-1】三种编码方式总结及实例
感谢:https://blog.csdn.net/youngstar70/article/details/64117297 一.总结在Java中,String的getBytes()方法是得到一个操作 ...
吴裕雄--python学习笔记：os模块函数
os.sep:取代操作系统特定的路径分隔符 os.name:指示你正在使用的工作平台.比如对于Windows,它是'nt',而对于Linux/Unix用户,它是'posix'. os.getcwd:得 ...
秒搭Kubernetes之使用Rancher
Rancher 在接触Docker和K8s的前阶段就耳闻目睹到Rancher,但是没有进一步接触过.直到将K8s搭建完成.才进一步了学习与实践Rancher. Rancher是简便易用的容器管理.其中 ...
js组合式继承
组合式继承是比较经典的继承,但是也有比较严重的缺点就是连两次调用了父类的构造函数. <!DOCTYPE html> <html lang="en"> < ...
Mybatis分页插件的使用流程
如果你也在用Mybatis,建议尝试该分页插件,这一定是最方便使用的分页插件.该插件支持任何复杂的单表.多表分页. 1.引入PageHelper的jar包在pom.xml中添加如下依赖: 12345 ...
Coding and Paper Letter（十五）
资源整理. 1.Nature Climate Change论文"Higher temperatures increase suicide rates in the United States ...

scrapy mid中间件一般处理方法

scrapy mid中间件一般处理方法的更多相关文章

随机推荐

热门专题