scrapy设置代理的方法

方法一：

直接在spider文件下设置代理，通过传参的方式设置在Request中

import scrapy

class MimvpSpider(scrapy.spiders.Spider):

    name = "mimvp"

    allowed_domains = ["mimvp.com"]

    start_urls = [

        "http://proxy.mimvp.com/exist.php",

        "https://proxy.mimvp.com/exist.php",

    ]

    ## 代理设置方式1：直接在代理里设置

    def start_requests(self):

        urls = [

            "http://proxy.mimvp.com/exist.php",

            "https://proxy.mimvp.com/exist.php",

        ]

        for url in urls:

            meta_proxy = ""

            if url.startswith("http://"):

                meta_proxy = "http://180.96.27.12:88"           # http代理

            elif url.startswith("https://"):

                meta_proxy = "http://109.108.87.136:53281"      # https代理

            yield scrapy.Request(url=url, callback=self.parse, meta={'proxy': meta_proxy})

    def parse(self, response):

        mimvp_url = response.url                    # 爬取时请求的url

        body = response.body                        # 返回网页内容

        print("mimvp_url : " + str(mimvp_url))

        print("body : " + str(body))

方法二：

利用中间件middlewares.py+settings配置

middlewares.py

## 代理设置方式2： 通过 middlewares.py + settings.py 配置文件设置

## mimvp custom by yourself

class ProxyMiddleware(object):

    def process_request(self,request,spider):

        if request.url.startswith("http://"):

            request.meta['proxy']="http://180.96.27.12:88"          # http代理

        elif request.url.startswith("https://"):

            request.meta['proxy']="http://109.108.87.136:53281"         # https代理

#         # proxy authentication

#         proxy_user_pass = "USERNAME:PASSWORD"

#         encoded_user_pass = base64.encodestring(proxy_user_pass)

#         request.headers['Proxy-Authorization'] = 'Basic ' + encoded_user_pass

settings.py

# Enable or disable downloader middlewares

# See http://scrapy.readthedocs.org/en/latest/topics/downloader-middleware.html

# 优先级越小越先执行

DOWNLOADER_MIDDLEWARES = {

    'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware': 110,

    'mimvp_proxy_python_scrapy.middlewares.ProxyMiddleware': 100,

}

scrapy设置代理的方法的更多相关文章

[转] Ubuntu的apt-get 设置代理的方法
点击阅读原文新立得软件管理器这种图形化的代理设置很明了,这里介绍下终端命令行的网络代理设置,这样大家就可以通过代理进行apt-get了. 方法一: 如果只是想临时使用http代理,可以在使用apt- ...
Ubuntu设置代理的方法
用过Linux的都知道,众多的PROXY配置,让人应接不暇,本文列出常见的一些PROXY的配置 1.apt-get proxy 的配置sudo gedit /etc/apt/apt.conf NOTE ...
selenium phantomjs 设置代理ip方法
最近遇到phantomjs动态更换ip的功能,在知乎上看到一篇不错的文章,顺手记下来以备后用 phantomjs selenium 如何动态修改代理? 可以这样做(Python代码): # 不使用代理 ...
scrapy设置代理
在爬取网站内容的时候,最常遇到的问题是:网站对IP有限制,会有防抓取功能,最好的办法就是IP轮换抓取(加代理) 下面来说一下Scrapy如何配置代理,进行抓取 1.在Scrapy工程下新建“middl ...
为YUM设置代理的方法
http://momo-fedora.blog.163.com/blog/static/1161345982009329611312/
网络爬虫之scrapy框架设置代理
前戏 os.environ()简介 os.environ()可以获取到当前进程的环境变量,注意,是当前进程. 如果我们在一个程序中设置了环境变量,另一个程序是无法获取设置的那个变量的. 环境变量是以一 ...
C# 为WebBrowser设置代理,打开网页
WebBrowser控件是基于IE浏览器的,所以它的内核功能是依赖于IE的,相信做.NET的人都知道. 今天的主题,和上一篇文章应该是差不多的,都是通过代理来实现功能的. 请看下面的代码: //1.定 ...
使用Chrome浏览器设置XX-net的方法
以下介绍使用Chrome浏览器设置XX-net的方法 1.下载并安装谷歌浏览器. 2.打开https://github.com/XX-net/XX-Net/blob/master/code/d ...
C# WebBrowser设置代理
WebBrowser控件是基于IE浏览器的,所以它的内核功能是依赖于IE. code: class IEProxy { //设置代理选项 private const int INTERNET_OPTI ...

随机推荐

并发库应用之十一 & 阻塞队列的应用
队列包含固定长度的队列和不固定长度的队列,队列的规则就是:先进先出.固定长度的队列往里放数据,如果放满了还要放,阻塞式队列就会等待,直到有数据取出,空出位置后才继续放:非阻塞式队列不能等待就只能报错了 ...
SSM-MyBatis-18：Mybatis中二级缓存和第三方Ehcache配置
------------吾亦无他,唯手熟尔,谦卑若愚,好学若饥------------- 二级缓存 Mybatis中,默认二级缓存是开启的.可以关闭. 一级缓存开启的.可以被卸载吗?不可以的.一级缓存 ...
玩转zookeeper命令
zkCli 是 zookeeper 原生的与 zk服务群连接的客户端的程序. 1.如何使用zkCli,sh 连接server 与参数 2.zkCli 下的增删查改指令与配额 quota 1.如何使 ...
。net加密解密相关方法
AES加密及解密声明密钥级偏移向量--------/// <summary> /// 加密密钥 /// </summary> private static readonly ...
datetime日期和时间
datetime是Python处理日期和时间的标准库. from datetime import datetime # 获取当前时间 now = datetime.now() print(now) # ...
phantomjs Can not connect to the Service phantomjs错误
尝试方法一: 打开hosts文件配置 cat /etc/hosts 添加 127.0.0.1 localhost 重新运行尝试方法二: 1,抛开服务,直接调用phantomjs定位问题由于我是从服 ...
第二天 Java语言基础
一.如何定义Java中的类 Java代码都定义在类中,类由class来定义,区分public class和class: 二.main方法的作用 main方法是程序的入口:保证程序的独立运行:被JVM调 ...
虚拟机console基础环境配置——安装VMware Tools
1. 虚拟机设置中点击安装2. 虚拟机中挂载VMware Tools镜像3. 解压安装4. 配置共享目录5. 有关VMware Tools 1. 虚拟机设置中点击安装 VMware workstati ...
CentOS DesktopEntry
IBM Developer : https://www.ibm.com/developerworks/cn/linux/l-cn-dtef/index.html [Desktop Entry] N ...
java Dated Dateformat Calendar
Date类概述类Date表示特定的瞬间,精确到毫秒.1000毫秒=1秒时间的原点:公元1970年一月一日,午夜0:00:00 对应的毫秒值就是0 注意:时间和日期的计算,必须依赖毫秒值 long ...

scrapy设置代理的方法

scrapy设置代理的方法的更多相关文章

随机推荐

热门专题