自动爬取代理IP例子

import time

import json

import datetime

import threading

import requests

from lxml import etree

from queue import Queue

# 爬取免费代理IP 来源xicidaili.com

# 多线程验证代理ip是否可用

class ProxyTest:

    def __init__(self):

        self.test_url = "http://pv.sohu.com/cityjson?ie=utf-8"

        self.headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36",}

        self.request_queue = Queue()

    def parse_url(self, url, proxies, timeout=3):

        return requests.get(url, headers=self.headers, proxies=proxies, timeout=timeout).content.decode()

    # 请求

    def request(self):

        while True:

            # 获取ip地址

            ip = self.request_queue.get()

            # 发起请求

            try:

                starttime = datetime.datetime.now()

                html_str = self.parse_url(self.test_url, proxies={"http": ip}, timeout=5)

                endtime = datetime.datetime.now()

                use_time = endtime - starttime

            except Exception as e:

                # 请求超时

                print("timeout %s" % ip)

                self.request_queue.task_done()

                continue

            # 检查返回html

            try:

                json_dict = json.loads(html_str[19:-1])

            except:

                print("fail %s, use time %d" % (ip, use_time.seconds))

                self.request_queue.task_done()

                continue

            if ip.startswith("http://"+json_dict["cip"]):

                # 代理可用

                print("success %s, use time %d, %s" % (ip, use_time.seconds, html_str))

                self.request_queue.task_done()

                # 保存到文件

                with open("proxy_ok_ip.json", "a", encoding="utf-8") as f:

                    f.write(ip)

                    f.write("\n")

            else:

                # ip不是高匿代理

                print("%s invalid, use time %d" % (ip, use_time.seconds))

                self.request_queue.task_done()

    def run(self):

        # 读取ip地址文件 并存储到队列中

        with open("proxy.json", "r", encoding="utf-8") as f:

            for line in f:

                self.request_queue.put(line.strip())

        # 遍历，发送请求，获取响应

        for i in range(30):

            # daemon=True 把子线程设置为守护线程，该线程不重要主线程结束，子线程结束

            threading.Thread(target=self.request, daemon=True).start()

        self.request_queue.join() #让主线程等待阻塞，等待队列的任务完成之后再完成

        print("主线程结束")

class Proxy:

    def __init__(self):

        self.headers = {

            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36"

        }

    def start_urls_superfastip(self):

        return ["http://www.superfastip.com/welcome/freeip/%d" % i for i in range(1,11)]

    def get_content_list_superfastip(self, html_str):

        content_list = []

        html = etree.HTML(html_str)

        tr_list = html.xpath('/html/body/div[3]/div/div/div[2]/div/table/tbody/tr')

        for tr in tr_list:

            if tr.xpath('./td[4]/text()')[0].strip() == 'HTTP':

                item = {}

                item["ip"] = tr.xpath('./td[1]/text()')[0].strip()

                item["port"] = tr.xpath('./td[2]/text()')[0].strip()

                content_list.append(item)

        return content_list

    def start_urls_xici(self):

        return ["http://www.xicidaili.com/nn/%d" % i for i in range(1,6)]

    def get_content_list_xici(self, html_str):

        content_list = []

        html = etree.HTML(html_str)

        tr_list = html.xpath('//table[@id="ip_list"]/tr')[1:]

        for tr in tr_list:

            item = {}

            item["ip"] = tr.xpath('./td[2]/text()')[0].strip()

            item["port"] = tr.xpath('./td[3]/text()')[0].strip()

            content_list.append(item)

        return content_list

    def start_urls_kuaidaili(self):

        return ["https://www.kuaidaili.com/free/inha/%d/" % i for i in range(1, 11)]

    def get_content_list_kuaidaili(self, html_str):

        content_list = []

        html = etree.HTML(html_str)

        tr_list = html.xpath('//div[@id="list"]/table/tbody/tr')

        for tr in tr_list:

            item = {}

            item["ip"] = tr.xpath('./td[1]/text()')[0].strip()

            item["port"] = tr.xpath('./td[2]/text()')[0].strip()

            content_list.append(item)

        return content_list

    def start_urls_89ip(self):

        return ["http://www.89ip.cn/index_%d.html" % i for i in range(1, 11)]

    def get_content_list_89ip(self, html_str):

        content_list = []

        html = etree.HTML(html_str)

        tr_list = html.xpath('//div[@class="layui-form"]/table/tbody/tr')

        for tr in tr_list:

            item = {}

            item["ip"] = tr.xpath('./td[1]/text()')[0].strip()

            item["port"] = tr.xpath('./td[2]/text()')[0].strip()

            content_list.append(item)

        return content_list

    def parse_url(self, url):

        return requests.get(url, headers=self.headers).content.decode()

    def save_content_list(self, content_list):

        with open("proxy.json", "a", encoding="utf-8") as f:

            for ip in content_list:

                f.write("http://%s:%s" % (ip["ip"], ip["port"]))

                f.write("\n")

    def run(self):

        # 构造请求地址列表

        start_urls_xici = self.start_urls_xici()

        start_urls_89ip = self.start_urls_89ip()

        start_urls_kuaidaili = self.start_urls_kuaidaili()

        start_urls_superfastip = self.start_urls_superfastip()

        all_content_list = []  # 存放所有爬取到的ip

        for url in start_urls_superfastip:

            html_str = self.parse_url(url)  # 获取响应

            content_list = self.get_content_list_superfastip(html_str)  # 处理响应

            all_content_list.extend(content_list)  # 将结果加到列表里

            time.sleep(0.2)

        for url in start_urls_xici:

            html_str = self.parse_url(url)  # 获取响应

            content_list = self.get_content_list_xici(html_str)  # 处理响应

            all_content_list.extend(content_list)  # 将结果加到列表里

            time.sleep(0.2)

        for url in start_urls_kuaidaili:

            html_str = self.parse_url(url)

            content_list = self.get_content_list_kuaidaili(html_str)

            all_content_list.extend(content_list)

            time.sleep(0.2)

        for url in start_urls_89ip:

            html_str = self.parse_url(url)

            content_list = self.get_content_list_89ip(html_str)

            all_content_list.extend(content_list)

            time.sleep(0.2)

        print("抓取完成")

        self.save_content_list(all_content_list)

if __name__ == '__main__':

    # 抓取数据

    spider = Proxy()

    spider.run()

    # 检测ip是否可用

    proxy = ProxyTest()

    proxy.run()

    print("最后可以用的代理IP在proxy_ok_ip.json")

自动爬取代理IP例子的更多相关文章

python爬虫爬取代理IP
# #author:wuhao # #--*------------*-- #-****#爬取代理IP并保存到Excel----#爬取当日的代理IP并保存到Excel,目标网站xicidaili.co ...
python 批量爬取代理ip
import urllib.request import re import time import random def getResponse(url): req = urllib.request ...
使用Python爬取代理ip
本文主要代码用于有代理网站http://www.kuaidaili.com/free/intr中的代理ip爬取,爬虫使用过程中需要输入含有代理ip的网页链接. 测试ip是否可以用 import tel ...
爬虫爬取代理IP池及代理IP的验证
最近项目内容需要引入代理IP去爬取内容. 为了项目持续运行,需要不断构造.维护.验证代理IP. 为了绕过服务端对IP 和频率的限制,为了阻止服务端获取真正的主机IP. 一.服务器如何获取客户端IP ...
python代理池的构建3——爬取代理ip
上篇博客地址:python代理池的构建2--代理ip是否可用的处理和检查一.基础爬虫模块(Base_spider.py) #-*-coding:utf-8-*- ''' 目标: 实现可以指定不同UR ...
爬取代理IP
现在爬虫好难做啊,有些网站直接封IP,本人小白一个,还没钱,只能找免费的代理IP,于是去爬了西刺免费代理,结果技术值太低,程序还没调试好, IP又被封了... IP又被封了... IP又被封了... ...
爬取代理IP，并判断是否可用。
# -*- coding:utf-8 -*- from gevent import monkey monkey.patch_all() import urllib2 from gevent.pool ...
Python爬取代理ip
# -*- coding:utf-8 -*- #author : willowj import urllib import urllib2 from bs4 import BeautifulSoup ...
原创:Python爬虫实战之爬取代理ip
编程的快乐只有在运行成功的那一刻才知道QAQ 目标网站:https://www.kuaidaili.com/free/inha/ #若有侵权请联系我因为上面的代理都是http的所以没写这个判断代 ...

随机推荐

2019.9.17更换ubuntu的镜像源 ubuntu安装lamp iis安装网站和ftp站
更换ubuntu的镜像源 /etc/apt/sources.list cp /etc/apt/sources.list /etc/apt/sources.list.bak 备份这个文件 vim / ...
【转】Android编译系统详解(一)——build/envsetup.sh
出处 http://www.cloudchou.com/android/post-134.html 本文原创作者:Cloud Chou. 欢迎转载,请注明出处和本文链接准备好编译环境后,编译Rom的 ...
Django学习系列4：编写第一个简单的应用代码
首页视图编写 lists/tests.py from django.test import TestCasefrom django.urls import resolvefrom lists.view ...
Java基本的程序结构设计控制流程
控制流程 java的控制流程和C和C++基本一致,只是不能使用goto语句,不过break语句可以带标签,实现从内层循环跳出的目的.标签可以放在for或者while前面.如下: package com ...
mysql时间函数操作
Mysql时间转换函数 https://blog.csdn.net/w_qqqqq/article/details/88863269 mysql时间日期函数 https://www.cnblogs.c ...
【转】H5 浏览器和 webview 后退缓存机制
来源:https://juejin.im/entry/588b44a08fd9c544813ed5b3 一.背景用户点击浏览器工具栏中的后退按钮,或者移动设备上的返回键时,或者JS执行history ...
Ubuntu中linux虚拟机全屏
登录客户机操作系统.在虚拟机中装载CD驱动器启动终端,使用tar解压缩安装程序,然后执行vmware-insall.pl安装VMware Tools. 1.进入文件界面,找到左侧“设备”右击“安装VM ...
javascript基本知识图解
转载自网络博客变量数据类型 javascript运算符 javascript流程语句 javascript 数组 javascript window对象 javascript DOM javas ...
postgresql查询栅格数据范围(extent)
栅格数据: SELECT ST_Extent(rast::geometry) as bextent FROM tmean_19; 矢量数据: SELECT ST_Extent(way) as bext ...
git的clone和github的fork
git的clone是从github上下载下来,clone到项目里面,fork是在本地修改后再提交到github上,在github上用request来进行提交,经作者确认后可以合同到mast分支上

自动爬取代理IP例子

自动爬取代理IP例子的更多相关文章

随机推荐

热门专题