python爬虫——建立IP池，将可用IP存放到redis

直接上代码，每行代码后面都有注释

import urllib.request

import urllib

import re

import time

import random

import socket

import threading

import redis

r = redis.Redis(host='192.168.60.112', port=6379,db=0,charset='utf-8')#换成自己的IP

# 抓取代理IP

ip_totle = []

for page in range(2, 6):

    url = 'http://www.xicidaili.com/nn/%s' %page#字符串拼接，西刺代理

    headers = {'User-Agent': 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'}#设置浏览器协议头

    request = urllib.request.Request(url=url, headers=headers)

    response = urllib.request.urlopen(request) #用Request类构建了一个完整的请求，增加了headers等一些信息

    content = response.read().decode('utf-8')

    print('get page', page)#打印出获取哪一页

    pattern = re.compile('<td>(\d.*?)</td>')  # 截取<td>与</td>之间第一个数为数字的内容

    ip_page = re.findall(pattern, str(content))#在content里查找pattern

    ip_totle.extend(ip_page)#将ip_page追加到ip_totle里

    time.sleep(random.choice(range(1, 3)))#推迟运行随机1-3s

# 打印抓取内容

# print('代理IP地址     ', '\t', '端口', '\t', '速度', '\t', '验证时间')

# for i in range(0, len(ip_totle), 4):

#     print(ip_totle[i], '    ', '\t', ip_totle[i + 1], '\t', ip_totle[i + 2], '\t', ip_totle[i + 3])

# 整理代理IP格式

proxys = []

for i in range(0, len(ip_totle), 4):

    proxy_host = ip_totle[i] + ':' + ip_totle[i + 1]#IP和端口

    proxy_temp = {"http": proxy_host}#加一个http

    proxys.append(proxy_temp)#把proxy_temp追加到proxys

# proxy_ip = open('proxy_ip.txt', 'w')  # 新建一个储存有效IP的文档

lock = threading.Lock()  # 建立一个锁

# 验证代理IP有效性的方法

def test(i):#给一个方法

    socket.setdefaulttimeout(5)  # 设置全局超时时间

    url = "https://www.baidu.com/"  # 打算爬取的网址

    try:

        proxy_support = urllib.request.ProxyHandler(proxys[i])

        opener = urllib.request.build_opener(proxy_support)

        opener.addheaders = [("User-Agent", "Mozilla/5.0 (Windows NT 10.0; WOW64)")]

        urllib.request.install_opener(opener)

        res = urllib.request.urlopen(url).read()

        lock.acquire()  # 获得锁

        print(proxys[i], 'is OK')

        # proxy_ip.write('%s\n' % str(proxys[i]))  # 写入该代理IP

        lock.release()  # 释放锁

    except Exception as e:

        lock.acquire()

        print(proxys[i], e)

        lock.release()

# 单线程验证

'''for i in range(len(proxys)):

    test(i)'''

# 多线程验证

threads = []

for i in range(len(proxys)):

    thread = threading.Thread(target=test, args=[i])

    threads.append(thread)

    thread.start()

# 阻塞主进程，等待所有子线程结束

for thread in threads:

    thread.join()

# proxy_ip.close()  # 关闭文件

r.lpush('myIP',proxys)

python爬虫——建立IP池，将可用IP存放到redis的更多相关文章

爬虫爬取代理IP池及代理IP的验证
最近项目内容需要引入代理IP去爬取内容. 为了项目持续运行,需要不断构造.维护.验证代理IP. 为了绕过服务端对IP 和频率的限制,为了阻止服务端获取真正的主机IP. 一.服务器如何获取客户端IP ...
python爬虫（3）——用户和IP代理池、抓包分析、异步请求数据、腾讯视频评论爬虫
用户代理池用户代理池就是将不同的用户代理组建成为一个池子,随后随机调用. 作用:每次访问代表使用的浏览器不一样 import urllib.request import re import rand ...
python爬虫redis-ip代理池搭建几十万的ip数据--可以使用
from bs4 import BeautifulSoupimport requests,os,sys,time,random,redisfrom lxml import etreeconn = re ...
原创:Python爬虫实战之爬取代理ip
编程的快乐只有在运行成功的那一刻才知道QAQ 目标网站:https://www.kuaidaili.com/free/inha/ #若有侵权请联系我因为上面的代理都是http的所以没写这个判断代 ...
Python爬虫之线程池
详情点我跳转关注公众号"轻松学编程"了解更多. 一.为什么要使用线程池? 对于任务数量不断增加的程序,每有一个任务就生成一个线程,最终会导致线程数量的失控,例如,整站爬虫,假设初 ...
python爬虫之线程池和进程池
一.需求最近准备爬取某电商网站的数据,先不考虑代理.分布式,先说效率问题(当然你要是请求的太快就会被封掉,亲测,400个请求过去,服务器直接拒绝连接,心碎),步入正题.一般情况下小白的我们第一个想到 ...
python爬虫-使用线程池与使用协程的实例
背景:爬取豆瓣电影top250的信息使用线程池 import re from concurrent.futures import ThreadPoolExecutor import requests ...
Python爬虫 | IP池的使用
一.简介 - 爬虫中为什么需要使用代理一些网站会有相应的反爬虫措施,例如很多网站会检测某一段时间某个IP的访问次数,如果访问频率太快以至于看起来不像正常访客,它可能就会禁止这个IP的访问.所以我们需 ...
python爬虫构建代理ip池抓取数据库的示例代码
爬虫的小伙伴,肯定经常遇到ip被封的情况,而现在网络上的代理ip免费的已经很难找了,那么现在就用python的requests库从爬取代理ip,创建一个ip代理池,以备使用. 本代码包括ip的爬取,检 ...

随机推荐

openstack pike 使用 openvswitch + vxlan
# openstack pike 使用 openvswitch + vxlan# openstack pike linuxbridge-agent 换为 openvswitch-agent #open ...
uva 1418 - WonderTeam
题意:你n支球队进行比赛,每两支队伍之间进行2场比赛,胜得3分,平得1分,输得0分,比赛后挑选出一个梦之队,要求进球总数最多,胜利场数最多,失球总数最少,并且三种都不能与其它对比列第一.问说梦之队的最 ...
thinkphp5源码解析(1)数据库
前言 tp5的数据库操作全部通过Db类完成,比较符合国人的习惯,比如简单的Db::query().Db::execute(),还有复杂的链式操作Db::where('id=1')->select ...
原生javascript选项卡
js选项卡是一个常用的实现.这里我们将用原生js来将其给予实现. 首先html代码: <div id="container"> <input type=" ...
LNMP1.3 一键配置环境，简单方便
系统需求: CentOS/RHEL/Fedora/Debian/Ubuntu/Raspbian Linux系统需要3GB以上硬盘剩余空间需要128MB以上内存(如果为128MB的小内存VPS,Xe ...
Microsoft Flow 概览
作者:陈希章发表于 2017年12月15日前言纵观一下我们周围的世界,以及我们每天忙忙碌碌的工作,你会"惊奇地"发现它们都是一个事件接着一个事件发生的.例如,我每天早上起来, ...
JDBC详解系列（二）之加载驱动
---[来自我的CSDN博客](http://blog.csdn.net/weixin_37139197/article/details/78838091)--- 在JDBC详解系列(一)之流程中 ...
C#将dataGridView中显示的数据导出到Excel（大数据量超有用版）
开发中非常多情况下须要将dataGridView控件中显示的数据结果以Excel或者Word的形式导出来,本例就来实现这个功能. 因为从数据库中查找出某些数据列可能不是必需显示出来,在dataGrid ...
iOS开发-自己定义后台显示图片(iOS7-Background Fetch的应用)
之前在用电池医生的时候, 发现它有这样一个功能:当应用进入后台的时候, 会显示另外一张图片覆盖App Switcher显示的界面. 效果例如以下: 变成----> 而这种一个功能, 对于保护用户 ...
自己定义定时器（Timer）
近期做项目的时候,用到了java.util.Timer定时器类.也初步使用了,个人感觉不错.只是,在某些方面Timer类无法满足项目的需求.比方,在使用Timer时,调用schedule()方法之后( ...

python爬虫——建立IP池，将可用IP存放到redis

python爬虫——建立IP池，将可用IP存放到redis的更多相关文章

随机推荐

热门专题