用Python批量爬取优质ip代理
前言
有时候爬的次数太多时ip容易被禁,所以需要ip代理的帮助。
今天爬的思路是:到云代理获取大量ip代理,逐个检测,将超时不可用的代理排除,留下优质的ip代理。
一、爬虫分析
首先看看今天要爬取的网址
http://www.ip3366.net/free/
1.分析网址
首先判断网址是动态网址还是静态网址,静态网址就是直接能通过翻页从网址里找到页码,以下是每页的网址:
http://www.ip3366.net/free/?stype=1&page=2
http://www.ip3366.net/free/?stype=1&page=3
http://www.ip3366.net/free/?stype=1&page=4
所以推出是静态网址,每页page递增1的规律
2.分析数据
今天打算用xpath来解析数据,首先打开F12,可以看到每条代理的信息都包裹在tr中,因此我们可以先通过tr获取全部信息,再遍历tr里的ip,端口和类型
二、完整代码
附上完整代码和详细注释
import requests
from lxml import etree
# 5.检测ip质量
def check_ip(proxies_list):
headers = {'User-Agent': 'Mozilla/5.0 (Windows; U; Windows NT 5.2) Gecko/2008070208 Firefox/3.0.1'}
can_use=[]
for ip in proxies_list:
try:
# 设置超时时间timeout,如果响应时间超出则不合格
response=requests.get(url=base_url,headers=headers,proxies=ip,timeout=0.1)
if response.status_code==200:
can_use.append(ip)
except Exception:
print('当前代理ip:',ip,'请求超时,检测不合格')
finally:
print('当前代理ip:',ip,'检测通过')
return can_use
proxies_list=[]
# 爬3页
for page in range(1,4):
print('---------------正在爬取第{}页数据---------------'.format(page))
# 1.分析url,添加headers,伪装成浏览器
base_url='http://www.ip3366.net/free/?stype=1&page={}'.format(str(page))
headers = {'User-Agent': 'Mozilla/5.0 (Windows; U; Windows NT 5.2) Gecko/2008070208 Firefox/3.0.1'}
# 2.发送请求
response=requests.get(url=base_url,headers=headers)
# 3.解析数据
response.encoding='gbk'
page_text=response.text
tree=etree.HTML(page_text)
# 获取所有ip代理的信息,就是所有tr
ip_list=tree.xpath('//*[@id="list"]/table/tbody/tr')
# 遍历ip代理
for tr in ip_list:
# xpath默认是列表类型,加个[0]就是文本类型了
http_type=tr.xpath('./td[4]/text()')[0]
ip=tr.xpath('./td[1]/text()')[0]
port=tr.xpath('./td[2]/text()')[0]
# 4.构建代理ip结构(格式像这样子{'HTTPS': '47.100.182.193:8081'})
proxies_dict={}
proxies_dict[http_type]=ip+":"+port
print('保存成功:',proxies_dict)
proxies_list.append(proxies_dict)
#放入空列表
print('获得代理ip数量:',len(proxies_list))
print('--------------------正在检测ip质量---------------')
can_use=check_ip(proxies_list)
print('质量高的:',can_use)
print('质量高的代理ip数量:',len(can_use))
运行效果如下:
总结
这个网站一次爬取次数多了,浏览器代理(headers)容易挂,换个浏览器代理即可。
本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理
想要获取更多Python学习资料可以加
QQ:2955637827私聊
或加Q群630390733
大家一起来学习讨论吧!
用Python批量爬取优质ip代理的更多相关文章
- 从0实现python批量爬取p站插画
一.本文编写缘由 很久没有写过爬虫,已经忘得差不多了.以爬取p站图片为着手点,进行爬虫复习与实践. 欢迎学习Python的小伙伴可以加我扣群86七06七945,大家一起学习讨论 二.获取网页源码 爬取 ...
- python 批量爬取代理ip
import urllib.request import re import time import random def getResponse(url): req = urllib.request ...
- python scrapy 爬取西刺代理ip(一基础篇)(ubuntu环境下) -赖大大
第一步:环境搭建 1.python2 或 python3 2.用pip安装下载scrapy框架 具体就自行百度了,主要内容不是在这. 第二步:创建scrapy(简单介绍) 1.Creating a p ...
- python+scrapy 爬取西刺代理ip(一)
转自:https://www.cnblogs.com/lyc642983907/p/10739577.html 第一步:环境搭建 1.python2 或 python3 2.用pip安装下载scrap ...
- python 批量爬取四级成绩单
使用本文爬取成绩大致有几个步骤:1.提取表格(或其他格式文件——含有姓名,身份证等信息)中的数据,为进行准考证爬取做准备.2.下载准考证文件并提取出准考证和姓名信息.3.根据得到信息进行数据分析和存储 ...
- python批量爬取动漫免费看!!
实现效果 运行环境 IDE VS2019 Python3.7 Chrome.ChromeDriver Chrome和ChromeDriver的版本需要相互对应 先上代码,代码非常简短,包含空行也才50 ...
- Python批量爬取谷歌原图,2021年最新可用版
文章目录 前言 一.环境配置 1.安装selenium 2.使用正确的谷歌浏览器驱动 二.使用步骤 1.加载chromedriver.exe 2.设置是否开启可视化界面 3.输入关键词.下载图片数.图 ...
- python批量爬取文档
最近项目需要将批量链接中的pdf文档爬下来处理,根据以下步骤完成了任务: 将批量下载链接copy到text中,每行1个链接: 再读txt文档构造url_list列表,利用readlines返回以行为单 ...
- python批量爬取猫咪图片
不多说直接上代码 首先需要安装需要的库,安装命令如下 pip install BeautifulSoup pip install requests pip install urllib pip ins ...
随机推荐
- css3系列之transform 详解scale
scale() scaleX() scaleY() scaleZ() scale3d() 改变的不是元素的宽高,而是 X 和 Y 轴的刻度 本章有个很冷门的知识点 → scale 和 rotate 一 ...
- 这份SpringMVC执行原理笔记,建议做java开发的好好看看,总结的很详细!
什么是SpringMVC? Spring MVC属于SpringFrameWork的后续产品,已经融合在Spring Web Flow里面.Spring 框架提供的web模块,包含了开发Web 应用程 ...
- 【POJ 1845】Sumdiv——数论 质因数 + 分治 + 快速幂
(题面来自luogu) 题目描述 输入两个正整数a和b,求a^b的所有因子之和.结果太大,只要输出它对9901的余数. 输入格式 仅一行,为两个正整数a和b(0≤a,b≤50000000). 输出格式 ...
- DevOps Workshop | 代码管理入门:基于代码扫描实现团队效率提升
CODING「DevOps Workshop 学习营地」持续火热进行中! 在这里,你可以轻松实践 DevOps 全流程.体验高效的云端开发.赢取精美礼品--第二期大奖「戴尔 U2718Q 显示器」将于 ...
- 使用ssh远程连接命令行系统
1.进入shell窗口 2.ssh+用户名+@+ip 例如:ssh root@39.96.58.107 3.输入密码
- LeetCode 043 Multiply Strings
题目要求:Multiply Strings Given two numbers represented as strings, return multiplication of the numbers ...
- 如何使用TradingView(TV)回测数字货币交易策略
更多精彩内容,欢迎关注公众号:数量技术宅.想要获取本期分享的完整策略代码,请加技术宅微信:sljsz01 TradingView平台简介 前段时间,有粉丝找到技术宅,表示他有一个常用的交易平台,叫做T ...
- centos7中安装redis出现的问题
重现步骤: 1.解压redis包后 执行make命令.出现一堆东西,其中有gcc:命令未找到. 解决:安装 yum install gcc-c++(需要有网) 2.安装完gcc命令后,再make.出现 ...
- java并发编程实战《五》死锁
一不小心就死锁了,怎么办? 在上一篇文章中,我们用 Account.class 作为互斥锁,来解决银行业务里面的转账问题,虽然这个方案不存在并发问题,但是所有账户的转账操作都是串行的,性能太差. 向现 ...
- moviepy AudioClip的max_volume方法报错ValueError: operands could not be broadcast together with shapes(2,)
☞ ░ 前往老猿Python博文目录 ░ 在<moviepy音视频剪辑:AudioClip的max_volume方法报TypeError: bad operand type for abs(): ...