如何建立自己的代理IP池,减少爬虫被封的几率

在爬虫过程中,难免会遇到各种各样的反爬虫,运气不好,还会被对方网站给封了自己的IP,就访问不了对方的网站,爬虫也就凉凉。

代理参数-proxies

首先我们先来介绍下什么是代理参数

代理,顾名思义,就是代理你原来的IP地址去对接网络

的IP地址

使用代理参数,可以隐藏自身真实的IP地址,避免被对方的网站封了。

1、语法结构
proxies = {
'协议':'协议://IP:端口号'
}
2、示例
proxies = {
'http':'http://IP:端口号',
'https':'https://IP:端口号'
}

如何获取代理IP

那具体如果获取代理IP呢,大多数IP都是收费,免费的IP的可以使用的很少,比如下面这些网站,

这次我就主要介绍爬取89网的免费IP,并测试可用性,存入自己的代理IP池中

89代理官网中有两种获取免费IP的方法,第一种就是主页面显示的IP地址

方法一



F12进行调试,页面是静态的页面,结构也相对简单,其IP地址全部在tr标签

import csv
import time ,random
import requests
from fake_useragent import UserAgent
from lxml import etree
class GetProxyIP(object):
#初始化URL
def __init__(self):
self.url='https://www.89ip.cn/index_{}.html'
# 获取代理IP
def get_IP(self,url):
html=requests.get(
url=url,
headers={
'User-Agent':UserAgent().random
},
timeout=5
).text
#转换为xpath可解析格式
parse_html=etree.HTML(html)
#解析得到所有tr列表
tr_list=parse_html.xpath('//tr')
#遍历每个tr,获取每个tr中的IP
for tr in tr_list[1:]:
ip=tr.xpath('.//td[1]/text()')[0].strip()
port=tr.xpath('./td[2]/text()')[0].strip()
#测试IP可用性
self.mtest_ip(ip,port) def mtest_ip(self,ip,port):
url='http://httpbin.org/get'
#设置headers
headers={
'User-Agent':UserAgent().random
}
#设置proxies代理参数
proxies={
'http': f'http://{ip}:{port}',
'https': f'https://{ip}:{port}'
}
try:
#发起请求
res=requests.get(url=url,proxies=proxies,headers=headers,timeout=8)
print(res.status_code)
#得到状态码就说明IP可用
if res.status_code:
print(ip,port,'Sucess')
#存到列表中
L=[ip+':'+port]
#写到csv中
with open('proxies.csv', 'a', encoding='utf-8') as f:
writer=csv.writer(f)
writer.writerow(L)
#IP不可用则抛出异常
except Exception as e:
print(ip,port,'Failed',e) #运行方法
def main(self):
#爬取1000页
for i in range(1,1001):
url=self.url.format(i)
#解析得到IP
self.get_IP(url)
time.sleep(random.randint(5,10)) if __name__ == '__main__':
spider= GetProxyIP()
spider.main()

方法二

在API接口中生成IP链接,访问进去也是有很多免费的代理IP





下面就直接爬虫代码进行爬取

# 获取开放代理接口
import csv import requests
import re
from fake_useragent import UserAgent
# 获取代理IP列表
def get_ip_list():
url='http://api.89ip.cn/tqdl.html?api=1&num=60&port=&address=&isp='
html=requests.get(url=url,headers={'User-Agent':UserAgent().random}).text
#按<br>分组
t_arr=html.split('<br>')
# 第一个特殊,需要先按</script>\n分组
t_0=t_arr[1].split('</script>\n')[1].strip
ip_list=[]
ip_list.append(t_0)
# 第二个及后面直接遍历就行
for i in range(2,len(t_arr)-1):
ip_list.append(t_arr[i])
print(ip_list)
#测试所有的IP可用性
for ip in ip_list:
mtest_ip(ip)
def mtest_ip(ip):
url='http://baidu.com/'
headers={
'User-Agent':UserAgent().random
}
proxies={
'http': f'http://{ip}',
'https': f'https://{ip}'
}
try:
res=requests.get(url=url,proxies=proxies,headers=headers,timeout=8)
print(res.status_code)
#一般状态码返回200就说明可用
if res.status_code==200:
print(ip,'Sucess')
L=[ip]
with open('proxies2.csv', 'a', encoding='utf-8', newline='') as f:
writer=csv.writer(f)
writer.writerow(L)
except Exception as e:
print(ip,'Failed',e) if __name__ == '__main__':
get_ip_list()

以后直接调用IP就可以用别人的代理了

如何建立自己的代理IP池,减少爬虫被封的几率的更多相关文章

  1. 【python3】如何建立爬虫代理ip池

    一.为什么需要建立爬虫代理ip池 在众多的网站防爬措施中,有一种是根据ip的访问频率进行限制的,在某段时间内,当某个ip的访问量达到一定的阀值时,该ip会被拉黑.在一段时间内被禁止访问. 这种时候,可 ...

  2. python多线程建立代理ip池

    之前有写过用单线程建立代理ip池,但是大家很快就会发现,用单线程来一个个测试代理ip实在是太慢了,跑一次要很久才能结束,完全无法忍受.所以这篇文章就是换用多线程来建立ip池,会比用单线程快很多.之所以 ...

  3. 建立爬虫代理IP池

    单线程构建爬虫代理IP池 #!/usr/bin/python3.5 # -*- coding:utf-8 -*- import time import tempfile from lxml impor ...

  4. Python爬虫代理IP池

    目录[-] 1.问题 2.代理池设计 3.代码模块 4.安装 5.使用 6.最后 在公司做分布式深网爬虫,搭建了一套稳定的代理池服务,为上千个爬虫提供有效的代理,保证各个爬虫拿到的都是对应网站有效的代 ...

  5. 做了一个动态代理IP池项目,邀请大家免费测试~

    现在出来创业了,目前公司在深圳. 做了啥呢, 做了一个动态代理 IP 池项目 现在邀请大家免费测试体验! 免费激活码:关注微信公众号:2808proxy (每人每天限领一次噢~) 网站:https:/ ...

  6. springboot实现java代理IP池 Proxy Pool,提供可用率达到95%以上的代理IP

    一.背景 前段时间,写java爬虫来爬网易云音乐的评论.不料,爬了一段时间后ip被封禁了.由此,想到了使用ip代理,但是找了很多的ip代理网站,很少有可以用的代理ip.于是,抱着边学习的心态,自己开发 ...

  7. C#——做一个简单代理IP池

    一.缘由. 抓取数据时,有一些网站 设置了一些反爬虫设置,进而将自己本地 IP 地址拉入系统黑名单.从而达到禁止本地 IP 访问数据的请求. 二.思路. 根据其他 代理 IP 网站,进行一个免费的代理 ...

  8. 自己设计代理IP池

    大体思路 使用redis作为队列,买了一份蘑菇代理,但是这个代理每5秒可以请求一次,我们将IP请求出来,从redis列表队列的左侧插入,要用的时候再从右侧取出,请求成功证明该IP是可用的,将该代理IP ...

  9. 构建一个给爬虫使用的代理IP池

    做网络爬虫时,一般对代理IP的需求量比较大.因为在爬取网站信息的过程中,很多网站做了反爬虫策略,可能会对每个IP做频次控制.这样我们在爬取网站时就需要很多代理IP. 代理IP的获取,可以从以下几个途径 ...

随机推荐

  1. Java多线程专题6: Queue和List

    合集目录 Java多线程专题6: Queue和List CopyOnWriteArrayList 如何通过写时拷贝实现并发安全的 List? CopyOnWrite(COW), 是计算机程序设计领域中 ...

  2. 解决github.com无法访问

    解决 绕过DNS解析,直接使用本地DNS记录进行直接跳转. DNS查询 在浏览器中打开DNS查询网站:http://tool.chinaz.com/dns?type=1&host=github ...

  3. 在windows、widfly环境下,远程debug

    最近:一直想弄一个远程debug模式,奈何没有接触过,导致畏首畏尾,不过,两天时间终于搞出来了雏形,真的是一个坑一个坑踩过来的. widfly环境:widfly8 准备工作:远程运行环境:省略,前面一 ...

  4. 在java中静态方法与非静态方法

    在java中public void与public static void有什么区别 ? public void 修饰是非静态方法,该类方法属于对象,在对象初始化(new Object())后才能被调用 ...

  5. ArrayList和LinkList的区别

    底层实现区别 ArrayList 底层实现就是数组,且ArrayList实现了RandomAccess,表示它能快速随机访问存储的元素,通过下标 index 访问,只是我们需要用 get() 方法的形 ...

  6. Jackson中处理map中的null key 或者null value 及实体字段中的null value

    1.map中有null key时的序列化  当有null key时,jackson序列化会报 Null key for a Map not allowed in JSON (use a convert ...

  7. C语言设计ATM存取款界面

    这个虽然很简单,但是我还是弄了一会儿,可见有多菜.练习算. 主要考察switch开关语句.do...while语句,页面的跳转我用的是goto,虽然是弊端,可是还是用了,因为太菜啊.大家有好建议的欢迎 ...

  8. ◆JAVA加密解密-3DES

    从数据安全谈起       当你使用网银时,是否担心你的银行卡会被盗用?     当你和朋友用QQ进行聊天时,是否担心你的隐私会被泄露?     作为开发者,编写安全的代码比编写优雅的代码更重要,因为 ...

  9. HDFS源码解析系列一——HDFS通信协议

    通信架构 首先,看下hdfs的交互图: 可以看到通信方面是有几个角色的:客户端(client).NameNode.SecondaryNamenode.DataNode;其中SecondaryNamen ...

  10. Idea个人配置

    Intellij IDEA配置 1. 优化导包配置 2. 取消tab页单行显示 多行显示更多的文件,方便查看. 3. 双斜杠注释改成紧跟代码头 4. 选中复制整行 原本只会复制你选中的代码,改完配置后 ...