requests 使用免费的代理ip爬取网站

import requests

import queue

import threading

from lxml import etree

#要爬取的URL

url = "http://xxxxx"

#代理ip网站

proxy_url = "https://www.kuaidaili.com/free/inha/{page}/"

class MyThreadPool:

    def __init__(self, maxsize):

        self.maxsize = maxsize

        self._pool = queue.Queue(maxsize)

        for _ in range(maxsize):

            self._pool.put(threading.Thread)

    def get_thread(self):

        return self._pool.get()

    def add_thread(self):

        self._pool.put(threading.Thread)

def get_url(url):

    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.146 Safari/537.36',

               }

    response = requests.get(url,headers=headers)

    html_str = response.text

    return html_str

def proxy_get_url(url,prox):

    proxies = {}

    proxies["http"] = prox

    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.146 Safari/537.36',

               }

    response = requests.get(url,headers=headers,proxies=proxies,timeout=3)

    html_str = response.text

    return html_str

def ip_proxy(html_str):

    html = etree.HTML(html_str)

    ip_list = html.xpath('//tr/td[@data-title="IP"]/text()')

    port_list = html.xpath('//tr/td[@data-title="PORT"]/text()')

    http_list = []

    for i in range(len(ip_list)):

        http_proxy = ip_list[i]+":"+port_list[i]

        http_list.append(http_proxy)

    return http_list

def available_ip(ip_list):

    for ip in ip_list:

        try:

            proxy_get_url('https://www.baidu.com/',ip)

        except Exception as e:

            continue

        IP_LIST.append(ip)

if __name__ == "__main__":

    IP_LIST = []

    pool = MyThreadPool(20) #线程池数

    #验证代理ip

    for i in range(1,20): #页数

        page_ip = get_url(proxy_url.format(page=i))

        ip_list = ip_proxy(page_ip)

        t = pool.get_thread()

        obj = t(target=available_ip,args=(ip_list,))

        obj.start()

    #爬取网站

    for ip in IP_LIST:

        try:

            proxy_get_url(url,ip)

        except Exception as e:

            continue

        print(ip)

#使用一个ip爬取网站，如果ip不可用了删除ip

while IP_LIST:

    try:
        print(IP_LIST[0])
        proxy_get_url(url,IP_LIST[0])
    except Exception as e:
        del IP_LIST[0]
        continue

requests 使用免费的代理ip爬取网站的更多相关文章

酷伯伯实时免费HTTP代理ip爬取（端口图片显示+document.write）
分析打开页面http://www.coobobo.com/free-http-proxy/,端口数字一看就不对劲,老规律ctrl+shift+c选一下: 这就很悲剧了,端口数字都是用图片显示的: 不 ...
代理IP爬取和验证（快代理&西刺代理）
前言仅仅伪装网页agent是不够的,你还需要一点新东西今天主要讲解两个比较知名的国内免费IP代理网站:西刺代理&快代理,我们主要的目标是爬取其免费的高匿代理,这些IP有两大特点:免费,不稳 ...
代理IP爬取，计算，发放自动化系统
IoC Python端 MySQL端 PHP端怎么使用这学期有一门课叫<物联网与云计算>,于是我就做了一个大作业,实现的是对代理IP的爬取,计算推荐,发放给用户等任务的的自动化系统.由 ...
蚂蚁代理免费代理ip爬取（端口图片显示+token检查）
分析蚂蚁代理的列表页大致是这样的: 端口字段使用了图片显示,并且在图片上还有各种干扰线,保存一个图片到本地用画图打开观察一下: 仔细观察蓝色的线其实是在黑色的数字下面的,其它的干扰线也是,所以这幅图 ...
python 实现爬取网站下所有URL
python3 实现爬取网站下所有URL 获取首页元素信息: 首页的URL链接获取: 遍历第一次返回的结果: 递归循环遍历: 全部代码如下: 小结: python3.6 requests && ...
5 使用ip代理池爬取糗事百科
从09年读本科开始学计算机以来,一直在迷茫中度过,很想学些东西,做些事情,却往往陷进一些技术细节而蹉跎时光.直到最近几个月,才明白程序员的意义并不是要搞清楚所有代码细节,而是要有更宏高的方向,要有更专 ...
Python 利用 BeautifulSoup 爬取网站获取新闻流
0. 引言介绍下 Python 用 Beautiful Soup 周期性爬取 xxx 网站获取新闻流: 图 1 项目介绍 1. 开发环境 Python: 3.6.3 BeautifulSoup: ...
Python脚本爬取网站美女照片
上次无意之中看到一个网站,里面全是美女的照片,我就心想,哪天有时间了得把这网站的所有美女照片都得爬下来.今天有时间,写了点代码,爬去了网站的所有照片.附上战果!图片实在是太多了,爬半个多小时先附上所 ...
使用scrapy爬取网站的商品数据
目标是爬取网站http://www.muyingzhijia.com/上全部的商品数据信息,包括商品的一级类别,二级类别,商品title,品牌,价格. 搜索了一下,python的scrapy是一个不错 ...

随机推荐

Android-SpinKit 进度条 (ProgressBar)
项目地址: https://github.com/ybq/Android-SpinKit 类别: 进度条 (ProgressBar) 打分: ★★★★★ 更新: 2016-03-28 11:17 大小 ...
转://Oracle 单引号转义
在ORACLE中,单引号有两个作用: 1:字符串是由单引号引用 2:转义. 单引号的使用是就近配对,即就近原则.而在单引号充当转义角色时相对不好理解 1.从第二个单引号开始被视为转义符,如果第二个单引 ...
PHP操作Redis常用技巧总结
一.Redis连接与认证 //连接参数:ip.端口.连接超时时间,连接成功返回true,否则返回false $ret = $redis->connect('127.0.0.1', 6379, 3 ...
Linux：Day3 文件系统
Linux的文件系统: 根文件系统(rootfs):root filesystem /boot:引导文件存放目录:内核文件(vmlinuz).引导加载器(bootloader,grub)都存放于此目录 ...
ESP32入门示例 - SD卡Web服务器
这个是来自ESP32官方示例的改版,官方的示例由于存在一些问题所以我进行了修改原本的示例有点逻辑上的问题,所以进行了一些修改主要修改有:1.新增SD卡测试部分复制自官方SD卡示例2.新增一个根目录 ...
JSONPath介绍
1. JSONPath介绍官网地址: https://github.com/alibaba/fastjson/wiki/JSONPath fastjson 1.2.0之后的版本支持JSONPath. ...
mongo中命令工作原理
1.db.runCommand命令 db.runCommand({OPTION:'COLLECTION_NAME'}) runCommand命令是mongo的执行命令,可以执行mongo的任何命令,其 ...
RPC通信原理(未完，先睡觉)
一背景 OpenStack 各组件之间是通过 REST 接口进行相互通信,比如Nova.Cinder.Neutron.Glance直间的通信都是通过keystone获取目标的endpoint,即ap ...
day91-redis
Redis数据库简介 redis是一个key-value存储系统.和Memcached类似,它支持存储的value类型相对更多,包括string(字符串).list(链表).set(集合).zset ...
记上海技术交流会之行备忘录(superset与odoo整合)
像每个早上一样,早起跑步回来冲个热水澡,简单的吃下早饭,看书到8:50的样子,准备赶10:02分的火车.在我看到周总的微信时,我知道这将是一个新的起点,在自己过往的2年时间,将更多的精力和时间用在了英 ...

requests 使用免费的代理ip爬取网站

requests 使用免费的代理ip爬取网站的更多相关文章

随机推荐

热门专题