python爬虫（五） ProxyHandler处理器

ProxyHandler处理器

一、如果我们在一段时间内用某个ip地址访问了一个网站次数过多，网站就检测到不正常，就会禁止这个ip地址的访问。所以我们可以设置一些代理服务器，每段时间换个代理，就算ip被禁止，我们也可以换个ip继续爬取

代理有

1、西刺免费代理：http://www.xicidaili.com/

2、快代理：http://www.kuaidaili.com/

3、代理云：http://www.dailiyun.com/

有免费的代理和付费的代理

二、通过网址：http://httpbin.org/ip，可以看到电脑与外网连接的ip，

也可以通过代码，url='http://httpbin.org/ip',查看ip地址

url = 'http://httpbin.org/ip'

resp=request.urlopen(url)

print(resp.read())

三、当使用代理之后,ip地址就会发生变化

from urllib import request

url = 'http://httpbin.org/ip'

# 1、使用 ProxyHandler，传入代理构建一个handler

handler = request.ProxyHandler({"http":"223.241.78.43:8010"})

# 2、使用上面创建的handler构建一个opener

opener = request.build_opener(handler)

# 3、使用opener去发送一个请求

resp=opener.open(url)

print(resp.read())

这个时候输出的结果就是代理的ip地址，网站不知道真实的ip地址，自己的ip地址就不会被禁了

python爬虫（五） ProxyHandler处理器的更多相关文章

python爬虫(五)_urllib2:Get请求和Post请求
本篇将介绍urllib2的Get和Post方法,更多内容请参考:python学习指南 urllib2默认只支持HTTP/HTTPS的GET和POST方法 urllib.urlencode() urll ...
Python 爬虫五进阶案例-web微信登陆与消息发送
首先回顾下网页微信登陆的一般流程 1.打开浏览器输入网址 2.使用手机微信扫码登陆 3.进入用户界面 1.打开浏览器输入网址首先打开浏览器输入web微信网址,并进行监控: https://wx.qq ...
Python 爬虫 (五)
# 头条街拍图片爬取 1 import re import requests from urllib import request import json import os i = 0 header ...
Python爬虫实战五之模拟登录淘宝并获取所有订单
经过多次尝试,模拟登录淘宝终于成功了,实在是不容易,淘宝的登录加密和验证太复杂了,煞费苦心,在此写出来和大家一起分享,希望大家支持. 温馨提示更新时间,2016-02-01,现在淘宝换成了滑块验证了 ...
python爬虫(六)_urllib2：handle处理器和自定义opener
本文将介绍handler处理器和自定义opener,更多内容请参考:python学习指南 opener和handleer 我们之前一直使用的是urllib2.urlopen(url)这种形式来打开网页 ...
python爬虫主要就是五个模块：爬虫启动入口模块，URL管理器存放已经爬虫的URL和待爬虫URL列表，html下载器，html解析器，html输出器同时可以掌握到urllib2的使用、bs4（BeautifulSoup）页面解析器、re正则表达式、urlparse、python基础知识回顾（set集合操作）等相关内容。
本次python爬虫百步百科,里面详细分析了爬虫的步骤,对每一步代码都有详细的注释说明,可通过本案例掌握python爬虫的特点: 1.爬虫调度入口(crawler_main.py) # coding: ...
Python爬虫进阶五之多线程的用法
前言我们之前写的爬虫都是单个线程的?这怎么够?一旦一个地方卡到不动了,那不就永远等待下去了?为此我们可以使用多线程或者多进程来处理. 首先声明一点! 多线程和多进程是不一样的!一个是 thread ...
Python爬虫入门五之URLError异常处理
大家好,本节在这里主要说的是URLError还有HTTPError,以及对它们的一些处理. 1.URLError 首先解释下URLError可能产生的原因: 网络无连接,即本机无法上网连接不到特定的 ...
Python爬虫教程——入门五之URLError异常处理
大家好,本节在这里主要说的是URLError还有HTTPError,以及对它们的一些处理. 1.URLError 首先解释下URLError可能产生的原因: 网络无连接,即本机无法上网连接不到特定的 ...

随机推荐

陆金所退出市场，我说：趁现在，抓紧离开P2P市场，你赞同吗？
编辑 | 于斌出品 | 于见(mpyujian) 18日,也就是前天,陆金所退出P2P市场的消息就像颗"重磅炸弹"一样,一波激起千层浪,陆金所作为全国最大财富平台之一,这次退出, ...
token是个什么东西？怎样生成并携带token
什么是token及怎样生成token 转载自:https://www.cnblogs.com/lufeiludaima/p/pz20190203.html 什么是token Token是服务端生成的 ...
在线直播： .NET与物联网主流技术探秘初识IoT！
DNT精英论坛暨.NET北京俱乐部是由资深.NET专家和社区活跃分子发起的技术论坛,以“分享.成长.合作.共赢”为原则,致力于打造一个领先的技术分享平台和成长交流生态.本次活动由aelf赞助支持,刘洪 ...
python3中的正则表达式
精确匹配: \d: 匹配一个数字 \w: 匹配一个字母或数字 . : 匹配任意一个字符 \s: 匹配一个空格(包括tab等空白符) 匹配变长的字符: * : 匹配任意个 ...
CI 框架多表关联查询
public function getCollectData($limit, $page, $search_user, $search_phone, $orderfield, $ordertype) ...
Codeforces Round #620 (Div. 2) E
LCA的倍增模板: ], depth[maxn]; int dist[maxn],head[maxn]; void add(int u,int v,int dist0){ a[tot].next=h ...
html解析のBeautifulSoup
引子: 使用python爬虫对爬取网页进行解析的时候,如果使用正则表达式,有很多局限,比如标签中出现换行,或者标签的格式不规范,都有可能出现取不到数据,BeautifulSoup作为一个专门处理htm ...
计算机二级-C语言-对二维数组数据进行处理。对文件进行数据输入。形参与实参。
//函数fun的功能为:计算x所指数组中N个数的平均值(规定所有数都为正数),平均值通过形参返回给主函数,将小于平均值且最接近平均值的数作为函数值返回,并输出. //重难点:形参与实参之间,是否进行了 ...
【笔记】单步跟踪法与UPX的脱壳理解
用PEiD查壳 UPX v0.89.6 - v1.02 / v1.05 - v1.22 这个是入门的壳,只是一个简单的压缩壳用Stud_PE查看PE文件头信息 ...
jdk rpm安装实现
wget https://download.oracle.com/otn/java/jdk/8u211-b12/478a62b7d4e34b78b671c754eaaf38ab/jdk-8u211 ...

python爬虫（五） ProxyHandler处理器

python爬虫（五） ProxyHandler处理器的更多相关文章

随机推荐

热门专题