Python 多线程爬取西刺代理

西刺代理是一个国内IP代理，由于代理倒闭了，所以我就把原来的代码放出来供大家学习吧。

首先找到所有的tr标签，与class="odd"的标签，然后提取出来。

然后再依次找到tr标签里面的所有td标签，然后只提取出里面的[1,2,5,9]这四个标签的位置，其他的不提取。

最后可以写出提取单一页面的代码，提取后将其保存到文件中。

import sys,re,threading

import requests,lxml

from queue import Queue

import argparse

from bs4 import BeautifulSoup

head = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.100 Safari/537.36"}

if __name__ == "__main__":

    ip_list=[]

    fp = open("SpiderAddr.json","a+",encoding="utf-8")

    url = "https://www.blib.cn/url/xcdl.html"

    request = requests.get(url=url,headers=head)

    soup = BeautifulSoup(request.content,"lxml")

    data = soup.find_all(name="tr",attrs={"class": re.compile("|[^odd]")})

    for item in data:

        soup_proxy = BeautifulSoup(str(item),"lxml")

        proxy_list = soup_proxy.find_all(name="td")

        for i in [1,2,5,9]:

            ip_list.append(proxy_list[i].string)

        print("[+] 爬行列表: {} 已转存".format(ip_list))

        fp.write(str(ip_list) + '\n')

        ip_list.clear()

爬取后会将文件保存为 SpiderAddr.json 格式。

最后再使用另一段代码，将其转换为一个SSR代理工具直接能识别的格式，{'http': 'http://119.101.112.31:9999'}

import sys,re,threading

import requests,lxml

from queue import Queue

import argparse

from bs4 import BeautifulSoup

if __name__ == "__main__":

    result = []

    fp = open("SpiderAddr.json","r")

    data = fp.readlines()

    for item in data:

        dic = {}

        read_line = eval(item.replace("\n",""))

        Protocol = read_line[2].lower()

        if Protocol == "http":

            dic[Protocol] = "http://" + read_line[0] + ":" + read_line[1]

        else:

            dic[Protocol] = "https://" + read_line[0] + ":" + read_line[1]

        result.append(dic)

        print(result)

完整多线程版代码如下所示。

import sys,re,threading

import requests,lxml

from queue import Queue

import argparse

from bs4 import BeautifulSoup

head = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.100 Safari/537.36"}

class AgentSpider(threading.Thread):

    def __init__(self,queue):

        threading.Thread.__init__(self)

        self._queue = queue

    def run(self):

        ip_list=[]

        fp = open("SpiderAddr.json","a+",encoding="utf-8")

        while not self._queue.empty():

            url = self._queue.get()

            try:

                request = requests.get(url=url,headers=head)

                soup = BeautifulSoup(request.content,"lxml")

                data = soup.find_all(name="tr",attrs={"class": re.compile("|[^odd]")})

                for item in data:

                    soup_proxy = BeautifulSoup(str(item),"lxml")

                    proxy_list = soup_proxy.find_all(name="td")

                    for i in [1,2,5,9]:

                        ip_list.append(proxy_list[i].string)

                    print("[+] 爬行列表: {} 已转存".format(ip_list))

                    fp.write(str(ip_list) + '\n')

                    ip_list.clear()

            except Exception:

                pass

def StartThread(count):

    queue = Queue()

    threads = []

    for item in range(1,int(count)+1):

        url = "https://www.xicidaili.com/nn/{}".format(item)

        queue.put(url)

        print("[+] 生成爬行链接 {}".format(url))

    for item in range(count):

        threads.append(AgentSpider(queue))

    for t in threads:

        t.start()

    for t in threads:

        t.join()

# 转换函数

def ConversionAgentIP(FileName):

    result = []

    fp = open(FileName,"r")

    data = fp.readlines()

    for item in data:

        dic = {}

        read_line = eval(item.replace("\n",""))

        Protocol = read_line[2].lower()

        if Protocol == "http":

            dic[Protocol] = "http://" + read_line[0] + ":" + read_line[1]

        else:

            dic[Protocol] = "https://" + read_line[0] + ":" + read_line[1]

        result.append(dic)

    return result

if __name__ == "__main__":

    parser = argparse.ArgumentParser()

    parser.add_argument("-p","--page",dest="page",help="指定爬行多少页")

    parser.add_argument("-f","--file",dest="file",help="将爬取到的结果转化为代理格式 SpiderAddr.json")

    args = parser.parse_args()

    if args.page:

        StartThread(int(args.page))

    elif args.file:

        dic = ConversionAgentIP(args.file)

        for item in dic:

            print(item)

    else:

        parser.print_help()

Python 多线程爬取西刺代理的更多相关文章

python scrapy 爬取西刺代理ip(一基础篇)（ubuntu环境下） -赖大大
第一步:环境搭建 1.python2 或 python3 2.用pip安装下载scrapy框架具体就自行百度了,主要内容不是在这. 第二步:创建scrapy(简单介绍) 1.Creating a p ...
python+scrapy 爬取西刺代理ip(一)
转自:https://www.cnblogs.com/lyc642983907/p/10739577.html 第一步:环境搭建 1.python2 或 python3 2.用pip安装下载scrap ...
使用XPath爬取西刺代理
因为在Scrapy的使用过程中,提取页面信息使用XPath比较方便,遂成此文. 在b站上看了介绍XPath的:https://www.bilibili.com/video/av30320885?fro ...
Python四线程爬取西刺代理
import requests from bs4 import BeautifulSoup import lxml import telnetlib #验证代理的可用性 import pymysql. ...
手把手教你使用Python爬取西刺代理数据（下篇）
/1 前言/ 前几天小编发布了手把手教你使用Python爬取西次代理数据(上篇),木有赶上车的小伙伴,可以戳进去看看.今天小编带大家进行网页结构的分析以及网页数据的提取,具体步骤如下. /2 首页分析 ...
Scrapy爬取西刺代理ip流程
西刺代理爬虫 1. 新建项目和爬虫 scrapy startproject daili_ips ...... cd daili_ips/ #爬虫名称和domains scrapy genspider ...
python3爬虫-通过requests爬取西刺代理
import requests from fake_useragent import UserAgent from lxml import etree from urllib.parse import ...
爬取西刺ip代理池
好久没更新博客啦~,今天来更新一篇利用爬虫爬取西刺的代理池的小代码先说下需求,我们都是用python写一段小代码去爬取自己所需要的信息,这是可取的,但是,有一些网站呢,对我们的网络爬虫做了一些限制, ...
爬取西刺网的免费IP
在写爬虫时,经常需要切换IP,所以很有必要自已在数据维护库中维护一个IP池,这样,就可以在需用的时候随机切换IP,我的方法是爬取西刺网的免费IP,存入数据库中,然后在scrapy 工程中加入tools ...
scrapy爬取西刺网站ip
# scrapy爬取西刺网站ip # -*- coding: utf-8 -*- import scrapy from xici.items import XiciItem class Xicispi ...

随机推荐

HTML5 postMessage 跨域跨窗口传递消息
父页面代码: <!DOCTYPE html> <html> <head> <title>选择位置demo</title> <meta ...
AtCoder Beginner Contest 176 (ABC水题，D题01BFS，E数组处理)
补题链接:Here A - Takoyaki 很容易看出 \(\frac{N + X - 1}{X} \times T\) B - Multiple of 9 给定一个很大的整数,问其是否是 \(9\ ...
JVM自定义类加载器在代码扩展性的实践
一.背景名单管理系统是手机上各个模块将需要管控的应用配置到文件中,然后下发到手机上进行应用管控的系统,比如各个应用的耗电量管控:各个模块的管控应用文件考虑到安全问题,有自己的不同的加密方式,按照以往 ...
改变函数内this指向方法——call、apply、bind
javascript为我们专门提供了一些函数方法来帮我们更优雅的处理函数内部this的指向问题,常用的有bind( ).call( ).apply( )三种方法. 相同点: 都可以改变函数内部的thi ...
freeswitch的事件引擎实现分析
概述 freeswitch是由事件驱动的,fs内部有各种事件来标识状态的变化包括呼叫的变化.配置的变化.号码的变化等等. 而一个框架内的事件引擎需要实现哪些基本的功能呢? 让我们来看一下fs的事件引擎 ...
freeswitch APR库内存池
概述 freeswitch的核心源代码是基于apr库开发的,在不同的系统上有很好的移植性. apr库中的大部分API都需要依赖于内存池,使用内存池简化内存管理,提高内存分配效率,减少内存操作中出错的概 ...
C# 防XSS攻击示例
思路: 对程序代码进行过滤非法的关键字新建控制台程序,编写代码测试过滤效果 class Program { static void Main(string[] args) { //GetStrReg ...
【MCU】单片机如何检测市电通断？(应用甚广~)
[来源]https://mp.weixin.qq.com/s/TQKtEbxS8WSo3D1MecdMIw
JMS微服务开发示例（九）相同的微服务，按用户所在城市来分配微服务器
虽然,默认情况下,多个相同的微服务,网关是自动根据微服务的压力情况,把用户请求分配到压力较轻的微服务器上. 但是,在某些业务情景下,我们可能希望人为去控制微服务的请求分配. 举个例子,我在北京.上海. ...
SQL函数——时间函数
1.使用 NOW() . CURDATE().CURTIME() 获取当前时间在这里我有一个问题想问问大家,你们平时都是怎么样子获取时间的呢?是不是通过手表.手机.电脑等设备了解到的,那么你们有没有 ...

Python 多线程爬取西刺代理

Python 多线程爬取西刺代理的更多相关文章

随机推荐

热门专题