爬虫前奏——代理ip的使用

如果同一个IP短时间内多次访问统一网页，可能会被系统识别出是爬虫，因此使用代理IP可以很大程度上解决这一问题

常用的代理有：

　　西刺免费代理：www.xicidaili.com

　　快代理：www.kuaidaili.com

　　代理云：www.dailiyun.com

那么我们如何知道自己的代理IP是否已经成功使用了呢？

　　很简单www.httpbin.org为我们提供了这个功能。www.http.org上可以看到我们访问网站所有提交的信息，在www.httpbin.org/ip上可以看到我们所需要的IP信息，如图

那么我们开始

我们使用以下免费代理

编写代码如下

from urllib import request

#没有使用代理

url='http://www.httpbin.org/ip'

resp = request.urlopen(url)

print(resp.read())

#使用代理的

url='http://www.httpbin.org/ip'

# 1.使用ProxyHandler,传入代理构建一个handler

headler = request.ProxyHandler({'http':'223.244.45.134:65309'})

# 2. 使用上面构建的handler构建一个opner

opner = request.build_opener(headler)

# 3. 使用opener去发送一个请求

resp = opner.open(url)

print(resp.read())

　需要导入urllib下的request库这是python自带的

headler = request.ProxyHandler({'http':'223.244.45.134:65309'})
需要注意的是ProxyHandler（）参数由字典组成：http 与 ip地址均由上面的服务商提供，“65309”为开放的端口号。
运行得到以下结果

b'{\n  "origin": "124.160.219.5"\n}\n'

b'{\n  "origin": "36.6.92.28"\n}\n'

说明我的代理ip使用成功了 注意：有可能因为免费的代理ip不稳定而导致错误的发生，毕竟免费的总是要出问题的。

以上内容有本人编写，如有转载请标明出处

爬虫前奏——代理ip的使用的更多相关文章

Python 爬虫的代理 IP 设置方法汇总
本文转载自:Python 爬虫的代理 IP 设置方法汇总 https://www.makcyun.top/web_scraping_withpython15.html 需要学习的地方:如何在爬虫中使用 ...
python爬虫构建代理ip池抓取数据库的示例代码
爬虫的小伙伴,肯定经常遇到ip被封的情况,而现在网络上的代理ip免费的已经很难找了,那么现在就用python的requests库从爬取代理ip,创建一个ip代理池,以备使用. 本代码包括ip的爬取,检 ...
爬虫-设置代理ip
1.为什么要设置代理ip 在学习Python爬虫的时候,经常会遇见所要爬取的网站采取了反爬取技术导致爬取失败.高强度.高效率地爬取网页信息常常会给网站服务器带来巨大压力,所以同一个IP反复爬取同一个网 ...
node.js 爬虫动态代理ip
参考文章: https://andyliwr.github.io/2017/12/05/nodejs_spider_ip/ https://segmentfault.com/q/10100000081 ...
Python实现爬虫设置代理IP和伪装成浏览器的方法(转载)
https://www.jb51.net/article/139587.htm chrome_options = webdriver.ChromeOptions() chrome_options.ad ...
实用爬虫-02-爬虫真正使用代理 ip
实用爬虫-02-爬虫真正使用代理 ip 因为这里呢,是实用爬虫,想要仔细学习一些基础的,可以去查看: Python 爬虫教程:https://www.cnblogs.com/xpwi/category ...
python爬虫成长之路（二）：抓取代理IP并多线程验证
上回说到,突破反爬虫限制的方法之一就是多用几个代理IP,但前提是我们得拥有有效的代理IP,下面我们来介绍抓取代理IP并多线程快速验证其有效性的过程. 一.抓取代理IP 提供免费代理IP的网站还挺多的, ...
python爬虫实战（一）——实时获取代理ip
在爬虫学习的过程中,维护一个自己的代理池是非常重要的. 详情看代码: 1.运行环境 python3.x,需求库:bs4,requests 2.实时抓取西刺-国内高匿代理中前3页的代理ip(可根据需求自 ...
通过爬虫代理IP快速增加博客阅读量——亲测CSDN有效！
写在前面题目所说的并不是目的,主要是为了更详细的了解网站的反爬机制,如果真的想要提高博客的阅读量,优质的内容必不可少. 了解网站的反爬机制一般网站从以下几个方面反爬虫: 1. 通过Headers反 ...

随机推荐

firefox45版本与seleniumIDE
firefox45版本与seleniumIDE https://blog.csdn.net/seanlyly/article/details/80203896 seleniumIDE与firefox版 ...
linux下的时区修改
Centos 7时区问题: 通常使用tzselect命令选择时区,今天在修改centos7的时区的时候,修改完以后时区还是没有发生变化,重启也是没有用的:通过网络的帮助了解到,在Centos和ubun ...
python2下经典爬虫（第一卷）
python2.7的爬虫个人认为比较经典在此我将会用书中的网站http://example.webscraping.com作为案例爬虫第一步:进行背景调研了解网站的结构资源在网站的robots.t ...
忘记mysql密码后重置密码
https://jingyan.baidu.com/album/c275f6ba479ca9e33d7567ee.html?picindex=4 找不到mysql的my.ini文件问题: https: ...
数据操作-apply函数族
R 作为一种向量化的编程语言,一大特征便是以向量计算替代了循环计算,使效率大大提升.apply函数族正是为解决数据循环处理问题而生的 -- 面向不同数据类型,生成不同返回值的包含8个相关函数的函数族. ...
Spring Cloud Alibaba-MyShop-项目介绍
本节视频 [视频]Spring Cloud Alibaba-MyShop-项目介绍开发环境操作系统:Windows 10 Enterprise 开发工具:Intellij IDEA 数据库:MyS ...
Luogu_1080_国王游戏
题目描述恰逢H国国庆,国王邀请n位大臣来玩一个有奖游戏.首先,他让每个大臣在左.右手上面分别写下一个整数,国王自己也在左.右手上各写一个整数.然后,让这n位大臣排成一排,国王站在队伍的最前面.排好队 ...
SWUST OJ Delete Numbers(0700)
Delete Numbers(0700) Time limit(ms): 1000 Memory limit(kb): 65535 Submission: 1731 Accepted: 373 D ...
文本快速分类利器fasttext使用心得（踩坑之路）
fasttext是文本分类的一大利器,优点:快,嗷嗷快:缺点:暂未发现.但是我在使用其做文本分类时候还是遇到了挺多坑,今天先总结一个: 网上有人说设置训练参数的时候,ngrams设置大于2可以提高模型 ...
机器学习算法的基本知识（使用Python和R代码）
本篇文章是原文的译文,然后自己对其中做了一些修改和添加内容(随机森林和降维算法).文章简洁地介绍了机器学习的主要算法和一些伪代码,对于初学者有很大帮助,是一篇不错的总结文章,后期可以通过文中提到的算法 ...

爬虫前奏——代理ip的使用

爬虫前奏——代理ip的使用的更多相关文章

随机推荐

热门专题