前言

有时候爬的次数太多时ip容易被禁,所以需要ip代理的帮助。
今天爬的思路是:到云代理获取大量ip代理,逐个检测,将超时不可用的代理排除,留下优质的ip代理。

一、爬虫分析

首先看看今天要爬取的网址

  1. http://www.ip3366.net/free/

1.分析网址

首先判断网址是动态网址还是静态网址,静态网址就是直接能通过翻页从网址里找到页码,以下是每页的网址:

  1. http://www.ip3366.net/free/?stype=1&page=2
  2. http://www.ip3366.net/free/?stype=1&page=3
  3. http://www.ip3366.net/free/?stype=1&page=4

所以推出是静态网址,每页page递增1的规律

2.分析数据

今天打算用xpath来解析数据,首先打开F12,可以看到每条代理的信息都包裹在tr中,因此我们可以先通过tr获取全部信息,再遍历tr里的ip,端口和类型

二、完整代码

附上完整代码和详细注释

  1. import requests
  2. from lxml import etree
  3. # 5.检测ip质量
  4. def check_ip(proxies_list):
  5. headers = {'User-Agent': 'Mozilla/5.0 (Windows; U; Windows NT 5.2) Gecko/2008070208 Firefox/3.0.1'}
  6. can_use=[]
  7. for ip in proxies_list:
  8. try:
  9. # 设置超时时间timeout,如果响应时间超出则不合格
  10. response=requests.get(url=base_url,headers=headers,proxies=ip,timeout=0.1)
  11. if response.status_code==200:
  12. can_use.append(ip)
  13. except Exception:
  14. print('当前代理ip:',ip,'请求超时,检测不合格')
  15. finally:
  16. print('当前代理ip:',ip,'检测通过')
  17. return can_use
  18. proxies_list=[]
  19. # 爬3页
  20. for page in range(1,4):
  21. print('---------------正在爬取第{}页数据---------------'.format(page))
  22. # 1.分析url,添加headers,伪装成浏览器
  23. base_url='http://www.ip3366.net/free/?stype=1&page={}'.format(str(page))
  24. headers = {'User-Agent': 'Mozilla/5.0 (Windows; U; Windows NT 5.2) Gecko/2008070208 Firefox/3.0.1'}
  25. # 2.发送请求
  26. response=requests.get(url=base_url,headers=headers)
  27. # 3.解析数据
  28. response.encoding='gbk'
  29. page_text=response.text
  30. tree=etree.HTML(page_text)
  31. # 获取所有ip代理的信息,就是所有tr
  32. ip_list=tree.xpath('//*[@id="list"]/table/tbody/tr')
  33. # 遍历ip代理
  34. for tr in ip_list:
  35. # xpath默认是列表类型,加个[0]就是文本类型了
  36. http_type=tr.xpath('./td[4]/text()')[0]
  37. ip=tr.xpath('./td[1]/text()')[0]
  38. port=tr.xpath('./td[2]/text()')[0]
  39. # 4.构建代理ip结构(格式像这样子{'HTTPS': '47.100.182.193:8081'})
  40. proxies_dict={}
  41. proxies_dict[http_type]=ip+":"+port
  42. print('保存成功:',proxies_dict)
  43. proxies_list.append(proxies_dict)
  44. #放入空列表
  45. print('获得代理ip数量:',len(proxies_list))
  46. print('--------------------正在检测ip质量---------------')
  47. can_use=check_ip(proxies_list)
  48. print('质量高的:',can_use)
  49. print('质量高的代理ip数量:',len(can_use))

运行效果如下:

总结

这个网站一次爬取次数多了,浏览器代理(headers)容易挂,换个浏览器代理即可。

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理

想要获取更多Python学习资料可以加
QQ:2955637827私聊
或加Q群630390733
大家一起来学习讨论吧!

用Python批量爬取优质ip代理的更多相关文章

  1. 从0实现python批量爬取p站插画

    一.本文编写缘由 很久没有写过爬虫,已经忘得差不多了.以爬取p站图片为着手点,进行爬虫复习与实践. 欢迎学习Python的小伙伴可以加我扣群86七06七945,大家一起学习讨论 二.获取网页源码 爬取 ...

  2. python 批量爬取代理ip

    import urllib.request import re import time import random def getResponse(url): req = urllib.request ...

  3. python scrapy 爬取西刺代理ip(一基础篇)(ubuntu环境下) -赖大大

    第一步:环境搭建 1.python2 或 python3 2.用pip安装下载scrapy框架 具体就自行百度了,主要内容不是在这. 第二步:创建scrapy(简单介绍) 1.Creating a p ...

  4. python+scrapy 爬取西刺代理ip(一)

    转自:https://www.cnblogs.com/lyc642983907/p/10739577.html 第一步:环境搭建 1.python2 或 python3 2.用pip安装下载scrap ...

  5. python 批量爬取四级成绩单

    使用本文爬取成绩大致有几个步骤:1.提取表格(或其他格式文件——含有姓名,身份证等信息)中的数据,为进行准考证爬取做准备.2.下载准考证文件并提取出准考证和姓名信息.3.根据得到信息进行数据分析和存储 ...

  6. python批量爬取动漫免费看!!

    实现效果 运行环境 IDE VS2019 Python3.7 Chrome.ChromeDriver Chrome和ChromeDriver的版本需要相互对应 先上代码,代码非常简短,包含空行也才50 ...

  7. Python批量爬取谷歌原图,2021年最新可用版

    文章目录 前言 一.环境配置 1.安装selenium 2.使用正确的谷歌浏览器驱动 二.使用步骤 1.加载chromedriver.exe 2.设置是否开启可视化界面 3.输入关键词.下载图片数.图 ...

  8. python批量爬取文档

    最近项目需要将批量链接中的pdf文档爬下来处理,根据以下步骤完成了任务: 将批量下载链接copy到text中,每行1个链接: 再读txt文档构造url_list列表,利用readlines返回以行为单 ...

  9. python批量爬取猫咪图片

    不多说直接上代码 首先需要安装需要的库,安装命令如下 pip install BeautifulSoup pip install requests pip install urllib pip ins ...

随机推荐

  1. 朴素的模式匹配算法BF

    1 #include <iostream> 2 using namespace std; 3 int BF(char S[], char T[]); 4 int main() 5 { 6 ...

  2. CentOS下的IPMI尝试

    1.载入支持 ipmi 功能的系统模块 modprobe ipmi_msghandler modprobe ipmi_devintf modprobe ipmi_poweroff modprobe i ...

  3. 【VSA】One-shot video-based person re-identification with variance subsampling algorithm

    目录 解决了什么问题 主要贡献和创新点 基本框架 提出的方法 01 variance confidence方差置信度 02 Variance Subsampling Algorithm 方差二次采样算 ...

  4. macos brew zookeeper,安装后zookeeper启动失败?

    一.Zookeeper安装流程 执行如下安装命令: brew install zookeeper 执行截图如下: 安装后查看 zookeeper 安装信息(默认拉取最新版本) brew info zo ...

  5. MySQL 连接为什么挂死了

    声明:本文为博主原创文章,由于已授权部分平台发表该文章(知乎.云社区),可能造成发布时间方面的困扰. 一.背景 近期由测试反馈的问题有点多,其中关于系统可靠性测试提出的问题令人感到头疼,一来这类问题有 ...

  6. Moviepy音视频开发:开发视频转gif动画或jpg图片exe图形化工具的案例

    ☞ ░ 前往老猿Python博文目录 ░ 一.引言 老猿之所以学习和研究Moviepy的使用,是因为需要一个将视频转成动画的工具,当时在网上到处搜索查找免费使用工具,结果找了很多自称免费的工具,但转完 ...

  7. moviepy音视频剪辑:与time时间线相关的变换函数freeze_region、make_loopable、speedx、time_mirror、time_symmetrize介绍

    ☞ ░ 前往老猿Python博文目录 ░ 一.引言 在<moviepy音视频剪辑:moviepy中的剪辑基类Clip详解>介绍了剪辑基类的fl.fl_time.fx方法,在<movi ...

  8. moviepy音视频剪辑VideoClip类set_position方法pos参数的使用方法及作用

    ☞ ░ 前往老猿Python博文目录 ░ moviepy音视频剪辑VideoClip类set_position方法用于多个剪辑合成一个剪辑时设置调用剪辑实例的拷贝在合成剪辑的位置. 调用语法: set ...

  9. python 练习洗牌

    生成随机数需要引入random模块,学习下random模块中常用的几个函数: random.random() 用于生成一个0到1的随机符点数: 0 <= n < 1.0 random.un ...

  10. Python自动发射弹幕

    Python自动发射弹幕,弹幕护体 - 环境: Python3+Windows- 开发工具: PyCharm 学习效果:1. 学会使用Python刷弹幕2. 配置INI文件信息3. 掌握网络请求知识4 ...