一.UA池：User-Agent池

　　　　- 作用：尽可能多的将scrapy工程中的请求伪装成不同类型的浏览器身份。

　　　　- 操作流程：

　　　　 1.在下载中间件中拦截请求

　　　　2.将拦截到的请求的请求头信息中的UA进行篡改伪装

　　　　3.在配置文件中开启下载中间件

　　　　　代码展示：

方法一:

#导包

#这个包的位置自己根据自己的scrapy框架的位置来

from scrapy.downloadermiddleware.useragent import UserAgentMiddleware

import random

#UA池代码的编写（单独给UA池封装一个下载中间件的一个类）

class RandomUserAgent(UserAgentMiddleware):

    def process_request(self, request, spider):

        #从列表中随机抽选出一个ua值

        ua = random.choice(user_agent_list)

        #ua值进行当前拦截到请求的ua的写入操作

        request.headers.setdefault('User-Agent',ua)

user_agent_list = [

        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 "

        "(KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1",

        "Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 "

        "(KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11",

        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 "

        "(KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6",

]

方法二:

1.安装包:　　

　　pip install scrapy-fake-useragent

2. 在settings中配置中间件

DOWNLOADER_MIDDLEWARES = {

   'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': None, # 关闭默认方法

    'scrapy_fake_useragent.middleware.RandomUserAgentMiddleware': 400, # 开启

　　　　}

#这样就可以随机抽出一个ua，就不用走第3步了，如果这个不设置，就要走第三步

RANDOM_UA_TYPE= 'random'

3.中间件写入:

class RandomUserAgent(object):

　　def process_request(self, request, spider):

       ua = UserAgent()

      　　request.headers['User-Agent'] = ua.random

二.代理池

　　　　- 作用：尽可能多的将scrapy工程中的请求的IP设置成不同的。

　　　　- 操作流程：

　　　　1.在下载中间件中拦截请求

　　　　2.将拦截到的请求的IP修改成某一代理IP

　　　　3.在配置文件中开启下载中间件

　　　　代码展示：

#批量对拦截到的请求进行ip更换

#单独封装下载中间件类

from scrapy import signals

import random

class MiddleproDownloaderMiddleware(object):

　　# 可被选用的代理IP

    PROXY_http = [

        '153.180.102.104:80',

        '195.208.131.189:56055',

    ]

    PROXY_https = [

        '120.83.49.90:9000',

        '95.189.112.214:35508',

    ]

   #拦截所有未发生异常的请求

    def process_request(self, request, spider):

        # 使用代理池进行请求代理ip的设置

        # if request.url.split(':')[0] == 'http':

        #     request.meta['proxy'] = random.choice(self.PROXY_http)

        # else:

        #     request.meta['proxy'] = random.choice(self.PROXY_https)

        return None

    #拦截所有的响应

    def process_response(self, request, response, spider):

        return response

    #拦截到产生异常的请求

    def process_exception(self, request, exception, spider):

        # 使用代理池进行请求代理ip的设置

        print('this is process_exception!')

        if request.url.split(':')[0] == 'http':

            request.meta['proxy'] = random.choice(self.PROXY_http)

        else:

            request.meta['proxy'] = random.choice(self.PROXY_https)

　　setting.py

DOWNLOADER_MIDDLEWARES = {

   'moviePro.middlewares.MovieproDownloaderMiddleware': 543,

}

三.selenium

一般情况下，我们在 start_urls 里写好url后，会自动发起get请求，但是这样不好处理动态数据，那么对于动态数据（就是如动态加载，ajax请求之类的数据）我们一般用到自动化工具selenium，直接操作浏览器访问数据得到的响应经过下载器组件与引擎组件之间的中间件（不清楚请看上面的组件运行原理），我们把selenium工具获取的动态数据在中间件中做下处理，然后把数据在返回爬虫文件的parse(response)

案例：访问网易新闻

wangyi.py

import scrapy

from selenium import webdriver

'''

在scrapy中使用selenium的编码流程:

    1.在spider的构造方法中创建一个浏览器对象(作为当前spider的一个属性)

    2.重写spider的一个方法closed(self,spider),在该方法中执行浏览器关闭的操作

    3.在下载中间件的process_response方法中,通过spider参数获取浏览器对象

    4.在中间件的process_response中定制基于浏览器自动化的操作代码(获取动态加载出来的页面源码数据)

    5.实例化一个响应对象,且将page_source返回的页面源码封装到该对象中

    6.返回该新的响应对象

　　 7.在配置文件中开启中间件

'''

class WangyiSpider(scrapy.Spider):

    name = 'wangyi'

    # allowed_domains = ['www.xxx.com']

    start_urls = ['http://war.163.com/']

    def __init__(self):

        self.bro = webdriver.Chrome(executable_path=r'C:\Users\Administrator\Desktop\爬虫+数据\day_03_爬虫\chromedriver.exe')

    def parse(self, response):

        div_list = response.xpath('//div[@class="data_row news_article clearfix "]')

        for div in div_list:

            title = div.xpath('.//div[@class="news_title"]/h3/a/text()').extract_first()

            print(title)

    def closed(self,spider):

        print('关闭浏览器对象!')

        self.bro.quit()

　　middlewares.py

from scrapy import signals

from scrapy.http import HtmlResponse

from time import sleep

class WangyiproDownloaderMiddleware(object):def process_request(self, request, spider):

        print('即将返回一个新的响应对象!!!')

        #如何获取动态加载出来的数据

        bro = spider.bro

        bro.get(url=request.url)

        sleep(3)

        #包含了动态加载出来的新闻数据

        page_text = bro.page_source

        sleep(3)

        return HtmlResponse(url=spider.bro.current_url,body=page_text,encoding='utf-8',request=request)

　　setting.py

　　开启中间件

DOWNLOADER_MIDDLEWARES = {

   'wangyipro.middlewares.WangyiproDownloaderMiddleware': 543,

}

中间件使用之（UA，IP，selenium）的使用的更多相关文章

构建 Owin 中间件来获取客户端IP地址
Not so long ago, we discussed on this blog the possible ways of retrieving the client’s IP address i ...
scrapy中间件中使用selenium切换ip
scrapy抓取一些需要js加载页面时一般要么是通过接口直接获取数据,要么是js加载,但是我通过selenium也可以获取动态页面但是有个问题,容易给反爬,因为在scrapy中间件mid中使用sel ...
Scrapy 框架中间件代理IP 提高效率
中间件拦截请求跟响应进行ua(User-Agent ) 伪装代理 IP 中间件位置: 引擎和下载器中间的中间件 ( 下载中间件) 引擎跟 spider 中间的中间件 ( 爬虫中间件)( ...
python爬虫请求库之selenium模块
一介绍 selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器,完全模拟浏览器 ...
Django CBV加装饰器、Django中间件、auth模块
一. CBV加装饰器在视图层中,基于函数的视图叫FBV(function base views),基于类的视图叫CBV(class base views).当需要用到装饰器时,例如之前的基于Cook ...
Django 如何获取真实远程客户端IP
问题简述我们知道HttpRequest.META字典包含所有HTTP头部信息(可用的头部信息取决于客户端和服务器).一般情况下,HttpRequest.META.get('REMOTE_ADDR') ...
IIs实验，中间件漏洞
实验一.IIS实验 1.修改端口开始→管理工具→Internet 信息服务(IIS)管理器,属性,将端口改为 8080 如图: 2. IP 地址绑定前面步骤同第一题一样,将 Ip 改为本 ...
Scrapy中集成selenium
面对众多动态网站比如说淘宝等,一般情况下用selenium最好那么如何集成selenium到scrapy中呢? 因为每一次request的请求都要经过中间件,所以写在中间件中最为合适 from se ...
python 全栈开发，Day138(scrapy框架的下载中间件,settings配置)
昨日内容拾遗打开昨天写的DianShang项目,查看items.py class AmazonItem(scrapy.Item): name = scrapy.Field() # 商品名 price ...
scrapy 使用代理ip
1.在settings文件中添加ip池 IPPOOL=['xxx.xx.xx.xx','xxx.xx.xxx.xx'] 2.在middleware文件中添加自己的代理ip类(首先需要导入ipPOOL, ...

随机推荐

Math.max()
返回两个指定的数中带有较大的值的那个数.
GridView删除行
在GridView绑定数据的时候需要设置该GridView的主键值,设置的这个主键与取出来的数据的一个字段对应.比如,取出来的数据表中有个ID的字段,那设这个ID为该GridView的主键是比较好的. ...
Entity Framework edmx（mapping文件）
<?xml version="1.0" encoding="utf-8"?><edmx:Edmx Version="2.0" ...
HTML、CSS、JavaScript拾遗
1.html元素中,如果有文本存在,当元素大小不足以容纳文本时,文本会进行强制换行.比如说设置页面不出现滚动条,body的overflow为hidden时,或者scroll为no时,span在超过页面 ...
Redis 一个很诡异的问题(部署)
使用Redis并用window服务的方式运行时.突然报错在启动进程意外中止解决方案: 调试了很久发现居然是在 Logfile的配置中的问题. 错误的logfile logfile " ...
C#winform拖动无边框窗体
private bool isMouseLeftKeyDown = false; private Point mousePointToClient = new Point();//相对于本窗体鼠标位置 ...
Codeforces Round #545 (Div. 2)C（离散化，思维，PAIR排序）
#include<bits/stdc++.h>using namespace std;int a[1007][1007];pair<int,int>p1[1007],p2[10 ...
BST_insert
#include <stdio.h> /* printf, scanf, NULL */ #include <stdlib.h> /* malloc, free */ stru ...
python基础之内建函数（二）
(7)max() 函数:返回列表.元祖或字符串中最大的元素,注意:字母“大于”数字.小写字母“大于”大写字母(字母排序是根据ASCII码表排的) 例如: >>>num = list ...
P2561 [AHOI2002]黑白瓷砖
$ \color{#0066ff}{ 题目描述 }$ $\color{#0066ff}{输入格式}$ 文件中以一行的形式存放一个正整数 n , n ≤ 20 . \(\color{#0066ff} ...

中间件使用之（UA，IP，selenium）的使用

一.UA池：User-Agent池

二.代理池

三.selenium

中间件使用之（UA，IP，selenium）的使用的更多相关文章

随机推荐

热门专题