scrapy 伪装代理和fake_userAgent的使用

伪装浏览器代理在爬取网页是有些服务器对请求过滤的不是很高可以不用ip来伪装请求直接将自己的浏览器信息给伪装也是可以的。

第一种方法：

1.在setting.py文件中加入以下内容，这是一些浏览器的头信息

USER_AGENT_LIST = ['zspider/0.9-dev http://feedback.redkolibri.com/',

                    'Xaldon_WebSpider/2.0.b1',

                    'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US) Speedy Spider (http://www.entireweb.com/about/search_tech/speedy_spider/)',

                    'Mozilla/5.0 (compatible; Speedy Spider; http://www.entireweb.com/about/search_tech/speedy_spider/)',

                    'Speedy Spider (Entireweb; Beta/1.3; http://www.entireweb.com/about/search_tech/speedyspider/)',

                    'Speedy Spider (Entireweb; Beta/1.2; http://www.entireweb.com/about/search_tech/speedyspider/)',

                    'Speedy Spider (Entireweb; Beta/1.1; http://www.entireweb.com/about/search_tech/speedyspider/)',

                    'Speedy Spider (Entireweb; Beta/1.0; http://www.entireweb.com/about/search_tech/speedyspider/)',

                    'Speedy Spider (Beta/1.0; www.entireweb.com)',

                    'Speedy Spider (http://www.entireweb.com/about/search_tech/speedy_spider/)',

                    'Speedy Spider (http://www.entireweb.com/about/search_tech/speedyspider/)',

                    'Speedy Spider (http://www.entireweb.com)',

                    'Sosospider+(+http://help.soso.com/webspider.htm)',

                    'sogou spider',

                    'Nusearch Spider (www.nusearch.com)',

                    'nuSearch Spider (compatible; MSIE 4.01; Windows NT)',

                    'lmspider (lmspider@scansoft.com)',

                    'lmspider lmspider@scansoft.com',

                    'ldspider (http://code.google.com/p/ldspider/wiki/Robots)',

                    'iaskspider/2.0(+http://iask.com/help/help_index.html)',

                    'iaskspider',

                    'hl_ftien_spider_v1.1',

                    'hl_ftien_spider',

                    'FyberSpider (+http://www.fybersearch.com/fyberspider.php)',

                    'FyberSpider',

                    'everyfeed-spider/2.0 (http://www.everyfeed.com)',

                    'envolk[ITS]spider/1.6 (+http://www.envolk.com/envolkspider.html)',

                    'envolk[ITS]spider/1.6 ( http://www.envolk.com/envolkspider.html)',

                    'Baiduspider+(+http://www.baidu.com/search/spider_jp.html)',

                    'Baiduspider+(+http://www.baidu.com/search/spider.htm)',

                    'BaiDuSpider',

                    'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0) AddSugarSpiderBot www.idealobserver.com',

                ]

2.在spider同级目录下建立一个MidWare文件价里面写一个HeaderMidWare.py文件内容为

# encoding: utf-8

from scrapy.utils.project import get_project_settings

import random

settings = get_project_settings()

class ProcessHeaderMidware():

    """process request add request info"""

    def process_request(self, request, spider):

        """

        随机从列表中获得header， 并传给user_agent进行使用

        """

        ua = random.choice(settings.get('USER_AGENT_LIST'))

        spider.logger.info(msg='now entring download midware')

        if ua:

            request.headers['User-Agent'] = ua

            # Add desired logging message here.

            spider.logger.info(u'User-Agent is : {} {}'.format(request.headers.get('User-Agent'), request))

        pass

3.在setting.py文件中添加

DOWNLOADER_MIDDLEWARES = {

'projectName.MidWare.HeaderMidWare.ProcessHeaderMidware': 543,

}

第二种方法：fake_userAgent的使用

fake_userAgent是github上的开源项目

1.安装fake_userAgent

pip install fake-useragent

2.在spider同级目录下建立一个MidWare文件价里面写一个user_agent_middlewares.py文件内容为

# -*- coding: utf-8 -*-

from fake_useragent import UserAgent

class RandomUserAgentMiddlware(object):

    #随机跟换user-agent

    def __init__(self,crawler):

        super(RandomUserAgentMiddlware,self).__init__()

        self.ua = UserAgent()

        self.ua_type = crawler.settings.get('RANDOM_UA_TYPE','random')#从setting文件中读取RANDOM_UA_TYPE值

    @classmethod

    def from_crawler(cls,crawler):

        return cls(crawler)

    def process_request(self,request,spider):  ###系统电泳函数

        def get_ua():

            return getattr(self.ua,self.ua_type)

        # user_agent_random=get_ua()

        request.headers.setdefault('User_Agent',get_ua())

        pass

3.在setting.py中添加

RANDOM_UA_TYPE = 'random'##random    chrome

DOWNLOADER_MIDDLEWARES = {

'projectName.MidWare.user_agent_middlewares.RandomUserAgentMiddlware': 543, 

'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware':None,

}

fake_userAgent伪装代理就配置好了，与第一种方法相比不用写一大串的浏览器头，那些浏览器头会在https://fake-useragent.herokuapp.com/browsers/0.1.7 中得到。

在第一次启用fake_userAgent的时候会有一些错，我认为是项目请求网络时需要缓存一些内容而导致的。

github地址：https://github.com/sea1234/fake-useragent

Python_爬虫伪装_ scrapy中fake_userAgent的使用的更多相关文章

Python_面试题_更新中
Python-面试题线上操作系统 centos py2和py3的区别每种数据类型,列举你了解的方法 3 or 9 and 8 字符串的反转 is 和 == 的区别? git流程 v = (1) / ...
第三百五十八节，Python分布式爬虫打造搜索引擎Scrapy精讲—将bloomfilter(布隆过滤器)集成到scrapy-redis中
第三百五十八节,Python分布式爬虫打造搜索引擎Scrapy精讲—将bloomfilter(布隆过滤器)集成到scrapy-redis中,判断URL是否重复布隆过滤器(Bloom Filter)详 ...
三十七 Python分布式爬虫打造搜索引擎Scrapy精讲—将bloomfilter(布隆过滤器)集成到scrapy-redis中
Python分布式爬虫打造搜索引擎Scrapy精讲—将bloomfilter(布隆过滤器)集成到scrapy-redis中,判断URL是否重复布隆过滤器(Bloom Filter)详解基本概念如 ...
爬虫07 /scrapy图片爬取、中间件、selenium在scrapy中的应用、CrawlSpider、分布式、增量式
爬虫07 /scrapy图片爬取.中间件.selenium在scrapy中的应用.CrawlSpider.分布式.增量式目录爬虫07 /scrapy图片爬取.中间件.selenium在scrapy ...
第三百六十七节，Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)scrapy写入数据到elasticsearch中
第三百六十七节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)scrapy写入数据到elasticsearch中前面我们讲到的elasticsearch( ...
第三百五十一节，Python分布式爬虫打造搜索引擎Scrapy精讲—将selenium操作谷歌浏览器集成到scrapy中
第三百五十一节,Python分布式爬虫打造搜索引擎Scrapy精讲—将selenium操作谷歌浏览器集成到scrapy中 1.爬虫文件 dispatcher.connect()信号分发器,第一个参数信 ...
爬虫开发12.selenium在scrapy中的应用
selenium在scrapy中的应用阅读量: 370 1 引入在通过scrapy框架进行某些网站数据爬取的时候,往往会碰到页面动态数据加载的情况发生,如果直接使用scrapy对其url发请求,是绝 ...
fake-useragent，python爬虫伪装请求头
在编写爬虫进行网页数据的时候,大多数情况下,需要在请求是增加请求头,下面介绍一个python下非常好用的伪装请求头的库:fake-useragent,具体使用说明如下: 1.在scrapy中的使用第 ...
Python_爬虫笔记_2018.3.19
Python_爬虫_笔记 1.前言 1.1爬虫用途: 网站采集.接口采集(地图(jis 热力学屋里端口/协议).微信.知乎.) 1.2基本流程:网页下载(requests)+网页解析+爬虫调度网页 ...

随机推荐

lumen-ioc容器测试 (2)
lumen-ioc容器测试 (1) lumen-ioc容器测试 (2) lumen-ioc容器测试 (3) lumen-ioc容器测试 (4) lumen-ioc容器测试 (5) lumen-ioc容 ...
mysql中事件失效如何解决
重启Mysql服务可能会导致event_scheduler关闭,事件失效.解决方法如下: 1.解决办法: #查看是否开启 show variables like 'event_scheduler'; ...
centos6.8 配置 yum 仓库
挂载方式 mkdir /mnt/cdrom 加载光盘: mount /dev/cdrom /mnt/cdrom/ 挂载光盘到 /mnt/cdrom/ 挂载成功 cd /etc/yum.repos.d/ ...
C++ Primer第5版第一章课后练习
练习1.9 #include <iostream> int main() { int sum = 0, val = 50; while (val <= 100) { sum += v ...
解放开发者！3款工具实现快速K8S开发
本文转自Rancher Labs 关注我们,即可第一时间获取K8S教程哦简介时至今日,Kubernetes正在变得越来越重要,不仅仅是运维需要Kubernetes,在开发的世界里Kubernet ...
Python ( 学习基础篇第一部 )
目录注释注释的分类注释的注意点变量变量的概念变量的声明变量的命名变量的交换变量的缓存机制常量进制进制的转换原码反码补码六大数据类型 Number 的四大类字符串 st ...
okhttp的Post方式
发送post请求 public class MainActivity extends AppCompatActivity { @Override protected void onCreate(Bun ...
Jenkins配置，tomacat版本输出乱码和页面打开报404的问题
1.打开tomact下的startup.bat,tomcat版本控制台中文输出乱码,解决方法是去tomacat安装路径下的conf目录,打开logging.properties文件,将java.uti ...
shell脚本之字符串测试表达式
1.字符串测试操作符字符串测试操作符的作用有:比较两个字符串是否相同.字符串的长度是否为零,字符串是否为NULL(注:bash区分零长度字符串和空字符串等) 下表为常用字符串操作符也可以通过man ...
Linux 系统编程学习：03-进程间通信1：Unix IPC（2）信号
Linux 系统编程学习:03-进程间通信1:Unix IPC(2)信号背景上一讲我们介绍了Unix IPC中的2种管道. 回顾一下上一讲的介绍,IPC的方式通常有: Unix IPC包括:管道 ...

Python_爬虫伪装_ scrapy中fake_userAgent的使用

scrapy 伪装代理和fake_userAgent的使用

第一种方法：

第二种方法：fake_userAgent的使用

Python_爬虫伪装_ scrapy中fake_userAgent的使用的更多相关文章

随机推荐

热门专题