一  scrapy添加代理

  1 内置代理:os.environ。

    固定格式,不推荐

  1. os.environ['http_proxy'] = "http://root:woshiniba@192.168.11.11:9999/"
  2. os.environ['https_proxy'] = "http://192.168.11.11:9999/"

  2 自定义代理:通过中间件实现

  1. import six
  2. import random
  3. import base64
  4.  
  5. from scrapy.contrib.downloadermiddleware.httpproxy import HttpProxyMiddleware
  6.  
  7. def to_bytes(text, encoding=None, errors='strict'):
  8. if isinstance(text, bytes):
  9. return text
  10. if not isinstance(text, six.string_types):
  11. raise TypeError('to_bytes must receive a unicode, str or bytes '
  12. 'object, got %s' % type(text).__name__)
  13. if encoding is None:
  14. encoding = 'utf-8'
  15. return text.encode(encoding, errors)
  16.  
  17. class ProxyMiddleware(object):
  18. def process_request(self, request, spider):
  19. PROXIES = [
  20. {'ip_port': '111.11.228.75:80', 'user_pass': ''},
  21. {'ip_port': '120.198.243.22:80', 'user_pass': ''},
  22. {'ip_port': '111.8.60.9:8123', 'user_pass': ''},
  23. {'ip_port': '101.71.27.120:80', 'user_pass': ''},
  24. {'ip_port': '122.96.59.104:80', 'user_pass': ''},
  25. {'ip_port': '122.224.249.122:8088', 'user_pass': ''},
  26. ]
  27. proxy = random.choice(PROXIES)
  28. if proxy['user_pass'] is not None:
  29. request.meta['proxy'] = to_bytes("http://%s" % proxy['ip_port'])
  30. encoded_user_pass = base64.encodestring(to_bytes(proxy['user_pass']))
  31. request.headers['Proxy-Authorization'] = to_bytes('Basic ' + encoded_user_pass)
  32. else:
  33. request.meta['proxy'] = to_bytes("http://%s" % proxy['ip_port'])
  34.  
  35. DOWNLOADER_MIDDLEWARES = {
  36. 'sp1.proxy.ProxyMiddleware': ,
  37. }

关于scarpy的一些说明的更多相关文章

  1. 【scarpy】笔记三:实战一

    一.前提 我们开始爬虫前,基本按照以下步骤来做: 1.爬虫步骤:新建项目,明确爬虫目标,制作爬虫,存储爬虫内容 二.实战(已豆瓣为例子) 2.1 创建项目 1.打开pycharm -> 点开te ...

  2. 爬虫之Scarpy.Request

    一 .Request 1.request Scarpy中的HTTP请求对象 1.1.Requse的构造 #我们ctrl+左键可以看到Scarpy.Request的代码 class Request(ob ...

  3. Scarpy框架安装教程

    在一切之前,建议升级pip,如果版本太低,安装会失败 升级pip命令: python -m pip install --upgrade pip 如果上面的命令不能用,用下面这个 easy_instal ...

  4. Python Scarpy安装包

    由于网络的原因,Scraoy无法安装 Cannot fetch index base URL https://pypi.python.org/simple/ 1.  scrapy 安装所需要的包可以从 ...

  5. Scarpy 起始url 自定义代理 自定义去重规则

    - start_urls - 内部原理 """ scrapy引擎来爬虫中去起始的URL: 1. 调用start_requests并获取返回值 2. v = iter(返回 ...

  6. Scarpy+selenium 结合使用

    首先要先在spider对象实例化时,同时实例化一个浏览器对象 # -*- coding: utf-8 -*- import scrapy from selenium import webdriver ...

  7. Scarpy框架持久化存储

    一.介绍 持久化存储操作分为两类:磁盘文件和数据库. 而磁盘文件存储方式又分为:基于终端指令和基于管道 二.基于终端指令的持久化存储 Scrapy是通过 scrapy 命令行工具进行控制的. 这里我们 ...

  8. scarpy设置日志打印级别和存储位置

    在settings.py中配置 日志级别设置 LOG_LEVEL = 'ERROR' # 当LOG_LEVEL设置为ERROR时,在进行日志打印时,只是打印ERROR级别的日志 日志存储设置 LOG_ ...

  9. scarpy crawl 爬取微信小程序文章(将数据通过异步的方式保存的数据库中)

    import scrapy from scrapy.linkextractors import LinkExtractor from scrapy.spiders import CrawlSpider ...

随机推荐

  1. 2018.2.10 使用SSH连接远程滴滴云服务器Ubuntu (Windows下) 及 putty工具永久设置字体、颜色

    一开始会有人问云服务器是什么? 云服务器是一种类似VPS服务器的虚拟化技术, VPS是采用虚拟软件,VZ或VM在一台服务器上虚拟出多个类似独立服务器的部分,每个部分都可以做单独的操作系统,管理方法同服 ...

  2. inner join 和 left join 的区别

    1.left join.right join.inner join的区别 left join(左联接) 返回包括左表中的所有记录和右表中联结字段相等的记录 right join(右联接) 返回包括右表 ...

  3. on() 和 click() 的区别

    on() 和 click() 的区别: 二者在绑定静态控件时没有区别,但是如果面对动态产生的控件,只有 on() 能成功的绑定到动态控件中. 以下实例中原先的 HTML 元素点击其身后的 Delete ...

  4. ES6 -- 模板字符串(反单引号)

    1)直接使用变量 // before var str = 'test'; console.log(str + "123"); // now var str = 'test'; co ...

  5. sql_autoload_register()函数

    复习__autoload的时候,看到了spl_autoload_register()这个函数.但是一下子没有弄明白,通过查资料我算是弄明白了. 1.__autoload()    ——    自动加载 ...

  6. Unity基础-脚本的优化

    脚本的优化 object pool 避免频繁的内存分配和gc噩梦(字符串相加?) 是否有必要都写在update里?分帧? 需要的只取一次 使用editor内赋值,而不是find 复杂的物理 复杂的数学 ...

  7. Voyager下的关系模型

    关系:一个用户有几件商品,对应User表和Products表 在Products表下添加字段,user_id 打开products下的bread,点击Create Relationship Produ ...

  8. docker镜像下载

    获得CentOS的Docker CE 预计阅读时间: 10分钟 要在CentOS上开始使用Docker CE,请确保 满足先决条件,然后 安装Docker. 先决条件 Docker EE客户 要安装D ...

  9. 在VUE中,关于CKEditor使用

    官方文档 语言配置 代码如下 ClassicEditor .create( document.querySelector( '#editor' ), { language: 'de' // 配置语言 ...

  10. phpExcel使用方法一

    include 'PHPExcel.php'; include 'PHPExcel/Writer/Excel2007.php'; //或者include 'PHPExcel/Writer/Excel5 ...