网络爬虫之scrapy框架设置代理

前戏

os.environ()简介

os.environ()可以获取到当前进程的环境变量，注意，是当前进程。

如果我们在一个程序中设置了环境变量，另一个程序是无法获取设置的那个变量的。

环境变量是以一个字典的形式存在的，可以用字典的方法来取值或者设置值。

os.environ() key字段详解

windows：

os.environ['HOMEPATH']:当前用户主目录。

os.environ['TEMP']:临时目录路径。

os.environ[PATHEXT']:可执行文件。

os.environ['SYSTEMROOT']:系统主目录。

os.environ['LOGONSERVER']:机器名。

os.environ['PROMPT']:设置提示符。

linux：

os.environ['USER']:当前使用用户。

os.environ['LC_COLLATE']:路径扩展的结果排序时的字母顺序。

os.environ['SHELL']:使用shell的类型。

os.environ['LAN']:使用的语言。

os.environ['SSH_AUTH_SOCK']:ssh的执行路径。

内置的方式

原理

scrapy框架内部已经实现了设置代理的方法，它的原理是从环境变量中取出设置的代理，然后再使用，

所以我们只需要在程序执行前将代理以键值对的方式设置到环境变量中即可。

代码

第一种方式：直接添加键值对的方式

class ChoutiSpider(scrapy.Spider):

	name = 'chouti'

	allowed_domains = ['chouti.com']

	start_urls = ['https://dig.chouti.com/']

	cookie_dict = {}

	def start_requests(self):

		import os

		os.environ['HTTPS_PROXY'] = "http://username:password@192.168.11.11:9999/"

		os.environ['HTTP_PROXY'] = '19.11.2.32',

		for url in self.start_urls:

			yield Request(url=url,callback=self.parse)

第二种方式：设置meta参数的方式

class ChoutiSpider(scrapy.Spider):

	name = 'chouti'

	allowed_domains = ['chouti.com']

	start_urls = ['https://dig.chouti.com/']

	cookie_dict = {}

	def start_requests(self):

		for url in self.start_urls:

			yield Request(url=url,callback=self.parse,meta={'proxy':'"http://username:password@192.168.11.11:9999/"'})

自定义方式

原理

我们可以根据内部实现的添加代理的类（中间件）的实现方法，来对它进行升级，比如内部的方式一次只能使用一个代理，

我们可以弄一个列表，装很多代理地址，然后随机选取一个代理，这样可以防止请求过多被封ip

代码

class ChoutiSpider(scrapy.Spider):

	name = 'chouti'

	allowed_domains = ['chouti.com']

	start_urls = ['https://dig.chouti.com/']

	cookie_dict = {}

	def start_requests(self):

		for url in self.start_urls:

			yield Request(url=url,callback=self.parse,meta={'proxy':'"http://username:password@192.168.11.11:9999/"'})

			import base64

			import random

			from six.moves.urllib.parse import unquote

			try:

				from urllib2 import _parse_proxy

			except ImportError:

				from urllib.request import _parse_proxy

			from six.moves.urllib.parse import urlunparse

			from scrapy.utils.python import to_bytes

			class XXProxyMiddleware(object):

				def _basic_auth_header(self, username, password):

					user_pass = to_bytes(

						'%s:%s' % (unquote(username), unquote(password)),

						encoding='latin-1')

					return base64.b64encode(user_pass).strip()

				def process_request(self, request, spider):

					PROXIES = [

						"http://username:password@192.168.11.11:9999/",

						"http://username:password@192.168.11.12:9999/",

						"http://username:password@192.168.11.13:9999/",

						"http://username:password@192.168.11.14:9999/",

						"http://username:password@192.168.11.15:9999/",

						"http://username:password@192.168.11.16:9999/",

					]

					url = random.choice(PROXIES)

					orig_type = ""

					proxy_type, user, password, hostport = _parse_proxy(url)

					proxy_url = urlunparse((proxy_type or orig_type, hostport, '', '', '', ''))

					if user:

						creds = self._basic_auth_header(user, password)

					else:

						creds = None

					request.meta['proxy'] = proxy_url

					if creds:

						request.headers['Proxy-Authorization'] = b'Basic ' + creds

写完类之后需要在settings文件里配置一下：

DOWNLOADER_MIDDLEWARES = {

   'spider.xxx.XXXProxyMiddleware': 543,

}

网络爬虫之scrapy框架设置代理的更多相关文章

Python网络爬虫之Scrapy框架（CrawlSpider）
目录 Python网络爬虫之Scrapy框架(CrawlSpider) CrawlSpider使用爬取糗事百科糗图板块的所有页码数据 Python网络爬虫之Scrapy框架(CrawlSpider) ...
网络爬虫值scrapy框架基础
简介 Scrapy是一个高级的Python爬虫框架,它不仅包含了爬虫的特性,还可以方便的将爬虫数据保存到csv.json等文件中. 首先我们安装Scrapy. 其可以应用在数据挖掘,信息处理或存储历史 ...
scrapy框架设置代理ip，headers头和cookies
[设置代理ip] 根据最新的scrapy官方文档,scrapy爬虫框架的代理配置有以下两种方法: 一.使用中间件DownloaderMiddleware进行配置使用Scrapy默认方法scrapy s ...
scrapy框架设置代理
网易音乐在单ip请求下经常会遇到网页返回码503的情况经查询,503为单个ip请求流量超限,猜测是网易音乐的一种反扒方式因原音乐下载程序采用scrapy框架,所以需要在scrapy中通过代理的方式去解 ...
16.Python网络爬虫之Scrapy框架（CrawlSpider）
引入提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法). 方法 ...
16，Python网络爬虫之Scrapy框架（CrawlSpider）
今日概要 CrawlSpider简介 CrawlSpider使用基于CrawlSpider爬虫文件的创建链接提取器规则解析器引入提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话, ...
网络爬虫之scrapy框架(CrawlSpider)
一.简介 CrawlSpider其实是Spider的一个子类,除了继承到Spider的特性和功能之外,还派生了其自己独有的更强大的特性和功能.其中最显著的功能就是"LinkExtractor ...
网络爬虫之scrapy框架详解
twisted介绍 Twisted是用Python实现的基于事件驱动的网络引擎框架,scrapy正是依赖于twisted, 它是基于事件循环的异步非阻塞网络框架,可以实现爬虫的并发. twisted是 ...
爬虫之 scrapy框架
浏览目录介绍安装项目结构及爬虫应用简介常用命令行工具 Spiders爬虫 Selectors选择器 Item Pipeline 项目管道 Downloader Middleware下载中间件 ...

随机推荐

SpringMVC之学习（1）
先来一个springmvc的基本配置,照样输出hello world 1.先导入springmvc所需要的开发包最起码需要这么多的基本包,然后开始上配置 2.先在web.xml里进行引入,和Stru ...
Spring.Net框架二：配置Spring.Net框架环境
一.下载DLL文件去Spring的官方网站下载并解压,然后直接添加dll文件的引用就可以了.在上一篇文章中,已经介绍过Spring.Net框架中需要使用到的dll文件.这些程序集文件位于Spring ...
Httpclient远程调用WebService示例（Eclipse+httpclient）
package cn.com.taiji.pos.httpserver; import java.io.BufferedInputStream;import java.io.ByteArrayOutp ...
C++ 函数的扩展②
//函数扩展--默认参数和占位参数 (了解) #include<iostream> using namespace std; /* 可以将占位参数与默认参数结合起来使用意义为以后程序扩 ...
JAVA面试-HIBERNATE与 MYBATIS的对比
JAVA面试中问及HIBERNATE与 MYBATIS的对比,在这里做一下总结我是一名java开发人员,hibernate以及mybatis都有过学习,在java面试中也被提及问道过,在项目实践 ...
第二百六十八节，Tornado框架-路由映射之二级域名支持，html模板继承以及导入
Tornado框架-路由映射之二级域名支持,html模板继承以及导入二级域名路由映射add_handlers()设置二级域名路由映射注意:二级域名需要结合服务器ip绑定域名框架引擎 #!/usr ...
5.3 SpEL语法
SqEL是一个可以独立于spring的表达式语言,即它可以用在XML中对语法进行简化 5.3 SpEL语法5.3.1 基本表达式一.字面量表达式: SpEL支持的字面量包括:字符串.数字类型(int. ...
Excel随机生成数据2
200万耗时大约 10秒以内,输出结果到txt文件. Sub GetPassword() 'by kagawa Dim i&, j&, k&, l&, m&, ...
Hadoop1.2.1 日志格式说明及启停方式
日志格式: 日志名称解析: Hadoop启停的三种方式: . 停止后面的以此类推...... 另外 hadoop-daemons.sh 表示启动多个,比如datanode跟tasktracker在真实 ...
android最新版极光推送
极光推送对于移动开发的程序员都不陌生,用起来也挺方便的,今天在这里给大家介绍下最先版的极光推送的用法,超级简单. 1.在build.gradle里面添加两个方法并引用一个库文件 1.1在default ...