构建一个给爬虫使用的代理IP池

做网络爬虫时，一般对代理IP的需求量比较大。因为在爬取网站信息的过程中，很多网站做了反爬虫策略，可能会对每个IP做频次控制。这样我们在爬取网站时就需要很多代理IP。

代理IP的获取，可以从以下几个途径得到：

从免费的网站上获取，质量很低，能用的IP极少
购买收费的代理服务，质量高很多
自己搭建代理服务器，稳定，但需要大量的服务器资源。

本文的代理IP池是通过爬虫事先从多个免费网站上获取代理IP之后，再做检查判断IP是否可用，可用的话就存放到MongoDB中，最后展示到前端的页面上。

获取可用Proxy

获取代理的核心代码是ProxyManager，它采用RxJava2来实现，主要做了以下几件事：

创建ParallelFlowable，针对每一个提供免费代理IP的页面并行地抓取。对于不了解ParallelFlowable的同学，可以看我之前的文章RxJava 之 ParallelFlowable

Flowable.fromIterable(ProxyPool.proxyMap.keySet())

                .parallel()

针对每一个页面进行抓取，返回List<Proxy>

map(new Function<String, List<Proxy>>() {

                @Override

                public List<Proxy> apply(String s) throws Exception {

                    try {

                        return new ProxyPageCallable(s).call();

                    } catch (Exception e) {

                        e.printStackTrace();

                    }

                    return null;

                }

            })

对每一个页面获取的代理IP列表进行校验，判断是否可用

flatMap(new Function<List<Proxy>, Publisher<Proxy>>() {

                @Override

                public Publisher<Proxy> apply(List<Proxy> proxies) throws Exception {

                    if (proxies == null) return null;

                    List<Proxy> result = proxies

                            .stream()

                            .parallel()

                            .filter(new Predicate<Proxy>() {

                        @Override

                        public boolean test(Proxy proxy) {

                            HttpHost httpHost = new HttpHost(proxy.getIp(), proxy.getPort(), proxy.getType());

                            return HttpManager.get().checkProxy(httpHost);

                        }

                    }).collect(Collectors.toList());

                    return Flowable.fromIterable(result);

                }

            })

依次保存到proxyList

subscribe(new Consumer<Proxy>() {

                @Override

                public void accept(Proxy proxy) throws Exception {

                    log.debug("Result Proxy = "+proxy.getType()+"://"+proxy.getIp()+":"+proxy.getPort());

                    proxy.setLastSuccessfulTime(new Date().getTime());

                    ProxyPool.proxyList.add(proxy);

                }

            });

附上完整的流程图

再附上完整的ProxyManager代码：

import com.cv4j.proxy.domain.Proxy;

import com.cv4j.proxy.http.HttpManager;

import com.cv4j.proxy.task.ProxyPageCallable;

import io.reactivex.Flowable;

import io.reactivex.functions.Consumer;

import io.reactivex.functions.Function;

import lombok.extern.slf4j.Slf4j;

import org.apache.http.HttpHost;

import org.reactivestreams.Publisher;

import org.springframework.stereotype.Component;

import java.util.Date;

import java.util.List;

import java.util.function.Predicate;

import java.util.stream.Collectors;

/**

 * Created by tony on 2017/10/25.

 */

@Slf4j

@Component

public class ProxyManager {

    /**

     * 抓取代理，成功的代理存放到ProxyPool中

     */

    public void start() {

        Flowable.fromIterable(ProxyPool.proxyMap.keySet())

                .parallel()

                .map(new Function<String, List<Proxy>>() {

                    @Override

                    public List<Proxy> apply(String s) throws Exception {

                        try {

                            return new ProxyPageCallable(s).call();

                        } catch (Exception e) {

                            e.printStackTrace();

                        }

                        return null;

                    }

                })

                .flatMap(new Function<List<Proxy>, Publisher<Proxy>>() {

                    @Override

                    public Publisher<Proxy> apply(List<Proxy> proxies) throws Exception {

                        if (proxies == null) return null;

                        List<Proxy> result = proxies

                                .stream()

                                .parallel()

                                .filter(new Predicate<Proxy>() {

                            @Override

                            public boolean test(Proxy proxy) {

                                HttpHost httpHost = new HttpHost(proxy.getIp(), proxy.getPort(), proxy.getType());

                                return HttpManager.get().checkProxy(httpHost);

                            }

                        }).collect(Collectors.toList());

                        return Flowable.fromIterable(result);

                    }

                })

                .sequential()

                .subscribe(new Consumer<Proxy>() {

                    @Override

                    public void accept(Proxy proxy) throws Exception {

                        log.debug("Result Proxy = "+proxy.getType()+"://"+proxy.getIp()+":"+proxy.getPort());

                        proxy.setLastSuccessfulTime(new Date().getTime());

                        ProxyPool.proxyList.add(proxy);

                    }

                });

    }

}

定时任务

每隔几个小时跑一次定时任务，在抓取完任务之后先删除旧的数据，然后再把新的数据插入到MongoDB中。

import com.cv4j.proxy.ProxyManager;

import com.cv4j.proxy.ProxyPool;

import com.cv4j.proxy.dao.ProxyDao;

import com.cv4j.proxy.domain.Proxy;

import com.safframework.tony.common.utils.Preconditions;

import org.springframework.beans.factory.annotation.Autowired;

import org.springframework.scheduling.annotation.Scheduled;

import org.springframework.stereotype.Component;

import java.util.concurrent.CopyOnWriteArrayList;

/**

 * Created by tony on 2017/11/22.

 */

@Component

public class ScheduleJobs {

    @Autowired

    ProxyDao proxyDao;

    @Autowired

    ProxyManager proxyManager;

    /**

     * 每六个小时跑一次任务

     */

    @Scheduled(cron = "0 0 */6 * * ?")

    public void cronJob() {

        System.out.println("Job Start...");

        proxyManager.start();

        CopyOnWriteArrayList<Proxy> list = ProxyPool.proxyList;

        // 先删除旧的数据

        proxyDao.deleteAll();

        // 然后再进行插入新的proxy

        if (Preconditions.isNotBlank(list)) {

            for (Proxy p:list) {

                proxyDao.saveProxy(p);

            }

        }

        System.out.println("Job End...");

    }

}

展示到前端

整个项目使用Spring Boot搭建，运行起来之后本地访问地址：
http://localhost:8080/load?pagename=proxy_list

预览效果如下：

在使用前，还可以再做一次检测，只要双击某个代理IP即可。

在第二次检测时，对于已经失效的IP会被ProxyPool删除。

总结

在做爬虫时，自己维护一个可用的代理IP池是很有必要的事情，当然想要追求更高稳定性的代理IP还是考虑购买比较好。

最后，附上github地址：
https://github.com/fengzhizi715/ProxyPool

构建一个给爬虫使用的代理IP池的更多相关文章

基于后端和爬虫创建的代理ip池
搭建免费的代理ip池需要解决的问题: 使用什么方式存储ip 文件存储缺点: 打开文件修改文件操作较麻烦 mysql 缺点: 查询速度较慢 mongodb 缺点: 查询速度较慢. 没有查重功能 re ...
爬虫爬取代理IP池及代理IP的验证
最近项目内容需要引入代理IP去爬取内容. 为了项目持续运行,需要不断构造.维护.验证代理IP. 为了绕过服务端对IP 和频率的限制,为了阻止服务端获取真正的主机IP. 一.服务器如何获取客户端IP ...
python爬虫构建代理ip池抓取数据库的示例代码
爬虫的小伙伴,肯定经常遇到ip被封的情况,而现在网络上的代理ip免费的已经很难找了,那么现在就用python的requests库从爬取代理ip,创建一个ip代理池,以备使用. 本代码包括ip的爬取,检 ...
爬虫入门到放弃系列05：从程序模块设计到代理IP池
前言上篇文章吧啦吧啦讲了一些有的没的,现在还是回到主题写点技术相关的.本篇文章作为基础爬虫知识的最后一篇,将以爬虫程序的模块设计来完结. 在我漫(liang)长(nian)的爬虫开发生涯中,我通常将 ...
【python3】如何建立爬虫代理ip池
一.为什么需要建立爬虫代理ip池在众多的网站防爬措施中,有一种是根据ip的访问频率进行限制的,在某段时间内,当某个ip的访问量达到一定的阀值时,该ip会被拉黑.在一段时间内被禁止访问. 这种时候,可 ...
Python爬虫代理IP池
目录[-] 1.问题 2.代理池设计 3.代码模块 4.安装 5.使用 6.最后在公司做分布式深网爬虫,搭建了一套稳定的代理池服务,为上千个爬虫提供有效的代理,保证各个爬虫拿到的都是对应网站有效的代 ...
建立爬虫代理IP池
单线程构建爬虫代理IP池 #!/usr/bin/python3.5 # -*- coding:utf-8 -*- import time import tempfile from lxml impor ...
C#——做一个简单代理IP池
一.缘由. 抓取数据时,有一些网站设置了一些反爬虫设置,进而将自己本地 IP 地址拉入系统黑名单.从而达到禁止本地 IP 访问数据的请求. 二.思路. 根据其他代理 IP 网站,进行一个免费的代理 ...
Python爬虫教程-11-proxy代理IP，隐藏地址（猫眼电影）
Python爬虫教程-11-proxy代理IP,隐藏地址(猫眼电影) ProxyHandler处理(代理服务器),使用代理IP,是爬虫的常用手段,通常使用UserAgent 伪装浏览器爬取仍然可能被网 ...

随机推荐

Spark Core知识点复习-1
Day1111 Spark任务调度 Spark几个重要组件 Spark Core RDD的概念和特性生成RDD的两种类型 RDD算子的两种类型算子练习分区 RDD的依赖关系 DAG:有向无环图 ...
汇编语言01 - 打印 "Hello World!"
Hello World! 源代码 data segment msg db "Hello World!$";定义名称为msg的字符串,最后加上$,表示字符串结束 data ends ...
Redis（七）持久化(Persistence)
前言前文中介绍到Redis时内存的K-V数据结构存储服务器.Redis的高性能原因之一在于其读写数据都是在内存中进行.它的架构实现方式决定了Redis的数据存储具有不可靠性,易丢失,因为RAM内存在 ...
CSS实现水平垂直居中的数种方法整合
CSS实现水平垂直居中可以说是前端老生常谈的问题了,一般面试官问的时候面试者都会回答出来,但是继续追问还有没有其他方法的时候有可能就说不出来了. 本着学习知识的目的,特在此纪录CSS实现水平垂直居中的 ...
USE11 上oracle11导入数据中文乱码
分类专栏: 数据库版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/suqimm/artic ...
AspNetCore.Identity详解2——注册用户
上一篇:AspNetCore.Identity详解1——入门使用打开数据库,可以看到使用EF自动生成的表结构如下: 重点关注AspNetUsers表,打开数据库里的表可以知道目前也只用到了这张表.然 ...
使用vue导出excel文件
今天再开发中遇到一件事情,就是怎样用已有数据导出excel文件,网上有许多方法,有说用数据流的方式,https://www.cnblogs.com/yeqrblog/p/9758981.html,但是 ...
移动端调试神器vconsole,手机端网页的调试工具Eruda
移动端调试神器vconsole,手机端网页的调试工具Eruda 移动端中使用 vConsole调试移动端调试工具vconsole安装Git地址:https://github.com/WechatFE ...
mangodb之save与insert区别
save:未指定 _id 参数插入成功,自动生成_id指定 _id 但 _id 对应的记录不存在插入成功,_id不变指定 _id 但 _id 对应的记录存在根据_id,更新记录 insert: ...
面试官：优化代码中大量的if/else，你有什么方案?
一个快速迭代的项目,时间久了之后,代码中可能会充斥着大量的if/else,嵌套6.7层,一个函数几百行,简!直!看!死!人! 这个无限循环嵌套,只是总循环的一部分...我已经绕晕在黄桷湾立交仔细数了 ...

构建一个给爬虫使用的代理IP池

构建一个给爬虫使用的代理IP池的更多相关文章

随机推荐

热门专题