代理的作用参考https://wenda.so.com/q/1361531401066511?src=140

免费代理很多,但也有很多不可用,所以我们可以用程序对其进行筛选。以能否访问百度为例。

1.获取网页内容。

import requests
url = "http://www.xicidaili.com/"
#获取网页源代码
def getData(url):
r = requests.get(url)
content = r.text
return content
getData(url)

对于一般网站像这样获取源代码就可以了,不过,这个网站有反爬机制,所以得用如下代码。

import requests
url = "http://www.xicidaili.com/"
#获取网页源代码
def getData(url):
header = {
'User-Agent': '',
'Accept': '',
'Accept-Encoding': '',
'Accept-Language': ''
}
session1 = requests.Session()
session1.headers.update(header)
r = session1.get(url)
content = r.text
return content
getData(url)

header里面的内容可以自己用浏览器访问网站,审查元素,network,F5刷新看到,然后填入相应位置。

2.获取免费代理ip和端口号。

import requests
import re
url = "http://www.xicidaili.com/"
#获取网页源代码
def getData(url):
header = {
'User-Agent': '',
'Accept': '',
'Accept-Encoding': '',
'Accept-Language': ''
}
session1 = requests.Session()
session1.headers.update(header)
r = session1.get(url)
content = r.text
return content
#获取免费IP和端口号
def getIp(content):
#ip格式为192.168.1.1,端口号为2或4为数字,与源代码进行匹配,取出ip和端口号
ip_port_tmp = "([0-9]+\.[0-9]+\.[0-9]+\.[0-9]+)</td>[\n|\s]*<td>(\d{2,4})"
ip_port = re.findall(ip_port_tmp,content)
return ip_port
content = getData(url)
ip_port = getIp(content)
print(ip_port)

3.检验这些代理ip是否可以访问百度

import requests
import re
#获取网页源代码
def getData(url):
header = {
'User-Agent': '',
'Accept': '',
'Accept-Encoding': '',
'Accept-Language': ''
}
session1 = requests.Session()
session1.headers.update(header)
r = session1.get(url)
content = r.text
return content
#获取免费IP和端口号
def getIp(content):
#ip格式为192.168.1.1,端口号为2或4为数字,与源代码进行匹配,取出ip和端口号
ip_port_tmp = "([0-9]+\.[0-9]+\.[0-9]+\.[0-9]+)</td>[\n|\s]*<td>(\d{2,4})"
ip_port = re.findall(ip_port_tmp,content)
return ip_port
def check_ip(ip_port):
url_baidu = "http://www.baidu.com/"
status = False
proxies = {
"http": f"{ip_port[0]}:{ip_port[1]}",
"https": f"{ip_port[0]}:{ip_port[1]}"
}
try:
r_baidu = requests.get(url_baidu, timeout=3, proxies=proxies)
L.append(proxies)
status = True
except Exception as e:
print(e)
pass
return status
if __name__ == '__main__':
url = "http://www.xicidaili.com/"#爬取免费ip
L = []#存储可用ip
content = getData(url)#获取网页源代码
ip_port = getIp(content)#获取免费ip
for item in ip_port:
check_ip(item)#得到可用的免费ip并存储到列表L中
print(L)

4.将L里面的Ip保存到txt文件中

with open('ip1.txt','w') as f:
for l in L:
f.write(l['http'])
f.write("\n")

补充:第三步检查速度有点慢,可以使用多线程进行优化。

import requests
import re
from multiprocessing.dummy import Pool as ThreadPool
#获取网页源代码
def getData(url):
header = {
'User-Agent': '',
'Accept': '',
'Accept-Encoding': '',
'Accept-Language': ''
}
session1 = requests.Session()
session1.headers.update(header)
r = session1.get(url)
content = r.text
return content
#获取免费IP和端口号
def getIp(content):
#ip格式为192.168.1.1,端口号为2或4为数字,与源代码进行匹配,取出ip和端口号
ip_port_tmp = "([0-9]+\.[0-9]+\.[0-9]+\.[0-9]+)</td>[\n|\s]*<td>(\d{2,4})"
ip_port = re.findall(ip_port_tmp,content)
return ip_port
def check_ip(ip_port):
url_baidu = "http://www.baidu.com/"
status = False
proxies = {
"http": f"{ip_port[0]}:{ip_port[1]}",
"https": f"{ip_port[0]}:{ip_port[1]}"
}
try:
r_baidu = requests.get(url_baidu, timeout=3, proxies=proxies)
L.append(proxies)
status = True
except Exception as e:
# print(e)
pass
return status
if __name__ == '__main__':
url = "http://www.xicidaili.com/"#爬取免费ip
L = []#存储可用ip
content = getData(url)#获取网页源代码
ip_port = getIp(content)#获取免费ip
# for item in ip_port:
# check_ip(item)#得到可用的免费ip并存储到列表L中
pool = ThreadPool(30)
pool.map(check_ip, ip_port)
pool.close()
pool.join()
print(L)

此时已经抓取到了可用的免费ip

第二篇 - python爬取免费代理的更多相关文章

  1. 极简代理IP爬取代码——Python爬取免费代理IP

    这两日又捡起了许久不碰的爬虫知识,原因是亲友在朋友圈拉人投票,点进去一看发现不用登陆或注册,觉得并不复杂,就一时技痒搞一搞,看看自己的知识都忘到啥样了. 分析一看,其实就是个post请求,需要的信息都 ...

  2. python爬取免费优质IP归属地查询接口

    python爬取免费优质IP归属地查询接口 具体不表,我今天要做的工作就是: 需要将数据库中大量ip查询出起归属地 刚开始感觉好简单啊,毕竟只需要从百度找个免费接口然后来个python脚本跑一晚上就o ...

  3. golang爬取免费代理IP

    golang爬取免费的代理IP,并验证代理IP是否可用 这里选择爬取西刺的免费代理Ip,并且只爬取了一页,爬取的时候不设置useAgent西刺不会给你数据,西刺也做反爬虫处理了,所以小心你的IP被封掉 ...

  4. 简单爬虫-爬取免费代理ip

    环境:python3.6 主要用到模块:requests,PyQuery 代码比较简单,不做过多解释了 #!usr/bin/python # -*- coding: utf-8 -*- import ...

  5. PHP简单爬虫 爬取免费代理ip 一万条

    目标站:http://www.xicidaili.com/ 代码: <?php require 'lib/phpQuery.php'; require 'lib/QueryList.php'; ...

  6. python爬取微信小程序(实战篇)

    python爬取微信小程序(实战篇) 本文链接:https://blog.csdn.net/HeyShHeyou/article/details/90452656 展开 一.背景介绍 近期有需求需要抓 ...

  7. 手把手教你使用Python爬取西刺代理数据(下篇)

    /1 前言/ 前几天小编发布了手把手教你使用Python爬取西次代理数据(上篇),木有赶上车的小伙伴,可以戳进去看看.今天小编带大家进行网页结构的分析以及网页数据的提取,具体步骤如下. /2 首页分析 ...

  8. python爬取github数据

    爬虫流程 在上周写完用scrapy爬去知乎用户信息的爬虫之后,github上star个数一下就在公司小组内部排的上名次了,我还信誓旦旦的跟上级吹牛皮说如果再写一个,都不好意思和你再提star了,怕你们 ...

  9. c#批量抓取免费代理并验证有效性

    之前看到某公司的官网的文章的浏览量刷新一次网页就会增加一次,给人的感觉不太好,一个公司的官网给人如此直白的漏洞,我批量发起请求的时候发现页面打开都报错,100多人的公司的官网文章刷新一次你给我看这个, ...

随机推荐

  1. 【纪录】Hash about

    backup a easy implement # coding: utf-8 def add(k, v): pass def get(target): pass class LinearMap(ob ...

  2. Spring Aop实例@Aspect、@Before、@AfterReturning@Around 注解方式配置

    用过spring框架进行开发的人,多多少少会使用过它的AOP功能,都知道有@Before.@Around和@After等advice.最近,为了实现项目中的输出日志和权限控制这两个需求,我也使用到了A ...

  3. matlab——sparse函数和full函数

    转载:http://www.cnblogs.com/lihuidashen/p/3435883.html matlab——sparse函数和full函数(稀疏矩阵和非稀疏矩阵转换)   函数功能:生成 ...

  4. JarvisOJ Basic easyRSA

    还记得veryeasy RSA吗?是不是不难?那继续来看看这题吧,这题也不难. 已知一段RSA加密的信息为:0xdc2eeeb2782c且已知加密所用的公钥: (N=322831561921859 e ...

  5. AMD直奔5nm!这一步棋下得妙

    AMD今年将推出采用7nm工艺的第二代EPYC霄龙.第三代Ryzen锐龙处理器,其中后者已经在CES 2019上公开首秀,性能追评i9-9900K,功耗则低得多. 虽然被称为“女友”的GlobalFo ...

  6. 【C/C++】实现牛顿迭代

    #include<bits/stdc++.h> using namespace std; /*(x+2)^2 +1 -2(x-1)^2+7 */ double f(double x){ - ...

  7. python数据类型知识整理

    python数据类型种类 int数字.bool布尔值.dict字典.tunple元组.set集合.list列表.字符串 int数字 #常用来进制转换 num = 11 #转化成2进制 bin_num ...

  8. Go语言类型的本质

    如果给这个类型增加或者删除某个值,是要创建一个新值,还是要更改当前的值? 如果是要创建一个新值,该类型的方法就使用值接收者. 如果是要修改当前值,就使用指针接收者. 这个答案也会影响程序内部传递这个类 ...

  9. 基于虚拟主机的HAProxy配置实战

    本实例是如上图所示 主要实现的功能如下: 当客户访问www.tb.com/tb.com的时候HAProxy将网站提交到电商服务器集群当访问bbs.tb.com的时候,将访问请求调度到论坛集群,实现论坛 ...

  10. BZOJ1005 HNOI2008明明的烦恼(prufer+高精度)

    每个点的度数=prufer序列中的出现次数+1,所以即每次选一些位置放上某个点,答案即一堆组合数相乘.记一下每个因子的贡献分解一下质因数高精度乘起来即可. #include<iostream&g ...