scrapy-redis+selenium+webdriver解决动态代理ip和user-agent的问题（全网唯一完整代码解决方案）

问题描述：在爬取一些反爬机制做的比较好的网站时，经常会遇见一个问题就网站代码是通过js写的，这种就无法直接使用一般的爬虫工具爬取，这种情况一般有两种解决方案

第一种：把js代码转为html代码，然后再使用html代码解析工具爬取，目前常用的工具是selenium和scrapy-splash,我使用的是第一个工具，第二个还有搞个docker服务，太麻烦

第二种：自己观察js代码，找到存放数据的地方，直接获取，这种方式需要有js基础，反正我看到一堆乱七八糟的js就头大，这种方式pass

下面就是第一种实现方式：

技术架构：scrapy-redis + selenium + webdriver

解释：使用scrapy-redis进行分布式爬虫效率高，而且直接把url放到redis中，这种方式对于请求链接的管理非常简单， selenium这工具可以直接融入到scrapy中，作为一个中间件，至于这个中间件的原理，网上有很多资料，其实原理很简单，就是每次请求进来，先让selenium这中间件处理一下，把js代码转为html，然后直接return一个对象给spider进行爬虫，这个对象里面放的就是html，

下面就是这个中间件的代码：

class SeleniumMiddleware(object):

    def __init__(self,timeout=25):

        profile = FirefoxProfile()

        profile.set_preference('permissions.default.image', 2)

        self.browser = webdriver.Firefox(profile)

        self.timeout = timeout

        self.browser.maximize_window()

        # # self.browser.implicitly_wait(20)

        self.browser.set_page_load_timeout(self.timeout)

        self.wait = WebDriverWait(self.browser, self.timeout)

    def __del__(self):

        self.browser.close()

    def process_request(self, request, spider):

        """

           用WebDriver抓取页面

           :param request: Request对象

           :param spider: Spider对象

           :return: HtmlResponse

           """

        logging.info('******WebDriver is Starting******')

        try:

　　　  #这里的ip和port可以根据自己的情况填充，比如通过api获取的代理ip，或者从代理池中获取也可以

            ip = '60.182.17.174'

            port = ''

　　　　#user_agent仍然可以动态修改，这里测试写死，网上有很多每次请求随机修改代理的user-agent的方法

　　　　user_agent ='Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; WOW64; Trident/6.0)'

            self.browser.get("about:config")

            script = '''

            var prefs = Components.classes["@mozilla.org/preferences-service;1"].getService(Components.interfaces.nsIPrefBranch);

            prefs.setIntPref("network.proxy.type", 1);

            prefs.setCharPref("network.proxy.http", "{ip}");

            prefs.setIntPref("network.proxy.http_port", "{port}");

            prefs.setCharPref("network.proxy.ssl", "{ip}");

            prefs.setIntPref("network.proxy.ssl_port", "{port}");

            prefs.setCharPref("network.proxy.ftp", "{ip}");

            prefs.setIntPref("network.proxy.ftp_port", "{port}");

　　　　　　　prefs.setBoolPref("general.useragent.site_specific_overrides",true);

　　　　　　　prefs.setBoolPref("general.useragent.updates.enabled",true);

　　　　　　prefs.setCharPref("general.useragent.override","{user_agent}");

            '''.format(ip = ip,port=port，user_agent=user_agent)

            self.browser.execute_script(script);

            time.sleep(1);

            self.browser.get(request.url)

            self.wait.until(EC.presence_of_element_located((By.XPATH, '//div[@class="s-result-list sg-row"]')))

            return HtmlResponse(url=request.url, body=self.browser.page_source, request=request, encoding='utf-8',

                            status=200)

        except TimeoutException:

            return HtmlResponse(url=request.url, status=500, request=request)

　　　　
-------------------------------------------------姑娘滑溜溜的马甲线------------------------------------------------------


注意：这是网上目前可以找到的唯一个完整代码的解决方案，可以直接复制粘贴，上面都没有说重点，其实这里最重要的就是动态修改代理ip，网上很多资料都是当浏览器启动的时候指定代理ip，那如果想要更换代理ip，不好意思，重启浏览器，这种方式效率非常低，对于一个有追求的程序员来说就是种耻辱

然后把这个中间件配置到settings中：

DOWNLOADER_MIDDLEWARES = {

    'scrapy.contrib.downloadermiddleware.useragent.UserAgentMiddleware' : None,  # 必需 ,禁用默认的middleware

    'amazon.custom_rewrite.SeleniumMiddlewares.SeleniumMiddleware': 541, #自定义selenium中间件

}

-------------------------------------------------姑娘滑溜溜的马甲线------------------------------------------------------
更新：上面只是解决了动态代理ip的问题，那如何解决动态修改浏览器头呢，很简单，只需要在上面的js中添加

prefs.setBoolPref("general.useragent.site_specific_overrides",true);

prefs.setBoolPref("general.useragent.updates.enabled",true);

prefs.setCharPref("general.useragent.override","{user_agent}");

-------------------------------------------------姑娘滑溜溜的马甲线------------------------------------------------------

2019-04-17更新：

　　上面的配置在运行的过程中，浏览器一般运行几天之后就会崩溃，我定位了很久才发现是浏览器内存泄露导致的，因为firefox浏览器默认是可以使用缓存的，随着爬虫的运行，这就会使浏览器的缓存越来越大，从而导致内存

泄露，那怎么解决呢？很简单，直接把缓存给禁用了就可以，不过有的爬虫需要用缓存加快爬虫的速度，这种情况下我还没有想到好的处理办法，一个思路是定时启动浏览器，比如定时5个小时重启一次浏览器，但是这样子有点麻烦吧，下面是禁用

缓存的代码

prefs.setBoolPref("browser.cache.disk.enable", false);

prefs.setBoolPref("browser.cache.memory.enable", false);

prefs.setBoolPref("browser.cache.offline.enable", false);

说明：火狐浏览器从25版本之后就已经在about:config中无法找到general.useragent.override属性了，解决办法就是在about:config右键，新建-->字符串，添加这个属性就可以

scrapy-redis+selenium+webdriver解决动态代理ip和user-agent的问题（全网唯一完整代码解决方案）的更多相关文章

python3 selenium模块Chrome设置代理ip的实现
python3 selenium模块Chrome设置代理ip的实现 selenium模块Chrome设置代理ip的实现代码: from selenium import webdriver chrome ...
做了一个动态代理IP池项目，邀请大家免费测试~
现在出来创业了,目前公司在深圳. 做了啥呢, 做了一个动态代理 IP 池项目现在邀请大家免费测试体验! 免费激活码:关注微信公众号:2808proxy (每人每天限领一次噢~) 网站:https:/ ...
scrapy怎么设置带有密码的代理ip base64.encodestring不能用 python3.5，base64库里面的encodestring()被换成了什么？
自己写爬虫时买的代理ip有密码,在网上查了都是下面这种: 1.在Scrapy工程下新建"middlewares.py": import base64 # Start your mi ...
【音乐爬虫】Python爬虫-selenium+browsermob-proxy 解决动态网页 js渲染问题
1.一般的python爬虫很简单,直接请求对应网址,解析返回的数据即可,但是有很多网站的数据的js动态渲染的,你直接请求是得不到对应的数据的这时就需要其它手段来处理了. 2.以一个例子来说明,整个过 ...
node.js 爬虫动态代理ip
参考文章: https://andyliwr.github.io/2017/12/05/nodejs_spider_ip/ https://segmentfault.com/q/10100000081 ...
爬虫实战【13】获取自己的动态代理ip池
在爬取一些比较友好的网站时,仍然有可能因为单位时间内访问次数过多,使服务器认定为机器访问,导致访问失败或者被封.如果我们使用不同的ip来访问网站的话,就可以绕过服务器的重复验证,使服务器以为使不同的人 ...
selenium爬虫设置headers,代理IP等方法
https://blog.csdn.net/xc_zhou/article/details/80823855
关于selenium添加使用代理ip
最近在爬某个网站,发现这个网站的反爬太厉害了,正常时候的访问有时候都会给你弹出来验证,验证你是不是蜘蛛,而且requests发的请求携带了请求头信息,cookie信息,代理ip,也能识别是爬虫,他应该 ...
GuozhongCrawler看准网爬虫动态切换IP漫爬虫
有些关于URL去重的方面代码没有提供,须要自己去实现.主要这里提供思路项目地址:http://git.oschina.net/woshidaniu/GuozhongCrawler/tree/mast ...

随机推荐

【PTA 天梯赛】L1-046 整除光棍（除法模拟）
这里所谓的“光棍”,并不是指单身汪啦~ 说的是全部由1组成的数字,比如1.11.111.1111等.传说任何一个光棍都能被一个不以5结尾的奇数整除.比如,111111就可以被13整除. 现在,你的程序 ...
js之冒泡排序与快速排序
//冒泡排序 let arr = [1, 6, 3, 7, 5, 9, 2, 8]; function sort(arr) { //升序 console.time("冒泡排序耗时" ...
SVN(独立安装)-1.9.7 centos 6.5(64位)
说明: 运行方式: 基于Apache的http.https网页访问形式: 基于svnserve的独立服务器模式. 数据存储方式: 在Berkeley DB数据库中存储数据: 使用普通的文件FSFS存储 ...
laravel5.5源码笔记（二、服务提供者provider）
laravel里所谓的provider服务提供者,其实是对某一类功能进行整合,与做一些使用前的初始化引导工作.laravel里的服务提供者也分为,系统核心服务提供者.与一般系统服务提供者.例如上一篇博 ...
python自学之第一章——列表（一）
1.列表是什么? 列表[list]:列表是由一系列特定顺序排列的元素组成. 列表由[]表示 eg: a = ['jackal','jax';'jack','jeef','jacky'] print(a ...
1. 文件a.txt内容：每一行内容分别为商品名字，价钱，个数。
li = []with open('lo', encoding='utf-8', mode='r') as f1: for i in f1: l2=i.strip().split() dic = {' ...
白帽子讲web安全——认证与会话管理
在看白帽子讲web安全,刚好看到认证与会话管理:也就是我们在平常渗透测试中遇到最多的登录页面,也即是用户名和密码认证方式,这是最常见的认证方式. 了解两个概念:认证和授权 1):认证的目的是为了认出用 ...
一个C语言萌新的学习之旅（持续更新中...）
三:计算和类型一:隐式转换和显示转换隐式转换:隐式转换指的是自动类型转换,自动向精确,大范围类型转换. 显示转换:例如:(int)3.5*6.0f=18.0f (int)(3.5*6.0f)=21 ...
MLT的学习理解
MLT的学习理解 MLT是一个开源的多媒体库,我们的音视频编辑工具,是使用它作为底层支持,某司的'快剪辑'pc版和安卓版,也是用的它. MLT简介它的GitHub地址,这个库比较老了,现在只有一个作 ...
ant-design-pro弹出框表单设置默认值
项目需求需要使用ant-design-pro的弹出框表单并在表单出现时设置默认值然而按照官方的示例给 <Input> 标签设置 defaultValue 时发现并没有效果.如下所示: & ...

scrapy-redis+selenium+webdriver解决动态代理ip和user-agent的问题（全网唯一完整代码解决方案）

scrapy-redis+selenium+webdriver解决动态代理ip和user-agent的问题（全网唯一完整代码解决方案）的更多相关文章

随机推荐

热门专题