用于大数据采集用的代理池 在数据采集的过程中,最需要的就是一直变化的代理ip。 自建adsl为问题是只有一个区域的IP。 买的代理存在的问题是不稳定,影响采集效率。 云vps不允许安装花生壳等,即使有花生壳,它的解析也不及时,跟不上3分钟变一次。 本项目的作用是将目前的云vps,安装代理软件,然后使用脚本每隔3分钟拨号一次,返回当前可用的ip给代理池,代理池记录后,提供给API接口给采集程序调用。

一共有几个板块:代理主机拨号返回ip,代理池接受ip并记录然后提供给采集程序,统计代理主机的数量、每台提供的ip数量等,检查代理ip是否异常并展示到网页,简单的认证,网页执行命令管理云主机。

项目有个巧妙的地方分享给大家,就是对于后端的采集程序对于api的调用的频率是极高的,每秒可达几百上千次。因为数据量不大,所以全放内存运行,数据库只是接收到新ip地址后在改变了内存里面的变量的同时写到数据作为备份,如果程序出错,启动的时候先加载数据库的数据到内存。

代理池的程序在ProxyApi.tar中,使用的django框架,当时急用没有写注释,供大家参考。

1、安装软件:

我们使用的云立方的云vps,每季度打折后200元不到。推荐系统用centos,它自动将adsl的账号密码弄好。

yum -y install squid

yum install -y httpd-tools

yum install -y openssl

2、设置代理的账号和密码:

touch /etc/squid/squid_passwd

chown squid /etc/squid/squid_passwd

htpasswd /etc/squid/squid_passwd proxy #会提示输入两次密码

3、写入配置文件:

/etc/squid/squid.conf

4、设置开机启动和重启squid:

systemctl enable squid && systemctl restart squid

5、写入拨号脚本:

adsl.py

6、启动拨号脚本:

#也可以写到/etc/rc.d/rc.local,记得把/etc/rc.d/rc.local设置可执行权限,不然不起作用。

nohup python adsl.py

7、查询方式,API的接口: 因为公司有几种语言,使用的代理格式不一样,所以这里只返回一个ip地址,代理的端口、用户名、密码是固定的,采集程序自己写。

http://ip:port/getip 所有随机

http://ip:port/getip?ip=云主机名称 按云主机名称查询

http://ip:port/getip?addr=重庆移动,重庆电信&tof=f 按地区随机,addr可以是单值,也可以使多值,多值用小写的,分割,tof (true or false),不写默认为t,传值f表示非

8、管理:

http://ip:port/checkip ,状态查询,可以只看故障的主机(只是时间有底色表示最近三次IP重复,暂时不可用,如果前面ip和时间都有底色,表示云主机没有继续提供新ip了,需要排查。),点击主机名称可以看单个主机最近提供的ip,和总的提供的ip及不重复的ip。

http://ip:port/shell ,可以在网页上执行命令,主要是查看和运行和重启等,vi什么的需要交互的命令是用不了的,top的话,记得用top -n 1;进入之前会有一个认证,后台可以改变密码,主机加入到代理池,程序会自动把云主机的名字写到主机管理里面,但是管理ip及端口、账号、密码需要手动添加,配置后才能网页执行命令。

主机管理,一页可以完成增删改查,没有做那么的限制和页面。可以查看所有的,也可以分组查看,方便后期在选择vps区域的时候参考。

执行命令这里,讲一下,做的还算完善,看注释,如果选择了主机的话,就有ip,然后就执行这一个主机,如果只选分组,不选主机就分组内的机器全部执行,然后按顺序返回,如果执行多条命令,会分别添加到相应的黑色区域,然后你也可以在主机的下面分别执行命令。部分主机调试好了,也可以关闭,不会影响其他主机的窗口。如果显示太多了,还可以清屏。

项目地址:https://github.com/xuyingzhong/ProxyApi

ProxyApi-大数据采集用的IP代理池的更多相关文章

  1. 记一次企业级爬虫系统升级改造(六):基于Redis实现免费的IP代理池

    前言: 首先表示抱歉,春节后一直较忙,未及时更新该系列文章. 近期,由于监控的站源越来越多,就偶有站源做了反爬机制,造成我们的SupportYun系统小爬虫服务时常被封IP,不能进行数据采集. 这时候 ...

  2. 5 使用ip代理池爬取糗事百科

    从09年读本科开始学计算机以来,一直在迷茫中度过,很想学些东西,做些事情,却往往陷进一些技术细节而蹉跎时光.直到最近几个月,才明白程序员的意义并不是要搞清楚所有代码细节,而是要有更宏高的方向,要有更专 ...

  3. Python爬虫之ip代理池

    可能在学习爬虫的时候,遇到很多的反爬的手段,封ip 就是其中之一. 对于封IP的网站.需要很多的代理IP,去买代理IP,对于初学者觉得没有必要,每个卖代理IP的网站有的提供了免费IP,可是又很少,写了 ...

  4. python开源IP代理池--IPProxys

    今天博客开始继续更新,谢谢大家对我的关注和支持.这几天一直是在写一个ip代理池的开源项目.通过前几篇的博客,我们可以了解到突破反爬虫机制的一个重要举措就是代理ip.拥有庞大稳定的ip代理,在爬虫工作中 ...

  5. 反爬虫之搭建IP代理池

    反爬虫之搭建IP代理池 听说你又被封 ip 了,你要学会伪装好自己,这次说说伪装你的头部.可惜加了header请求头,加了cookie 还是被限制爬取了.这时就得祭出IP代理池!!! 下面就是requ ...

  6. 打造IP代理池,Python爬取Boss直聘,帮你获取全国各类职业薪酬榜

    爬虫面临的问题 不再是单纯的数据一把抓 多数的网站还是请求来了,一把将所有数据塞进去返回,但现在更多的网站使用数据的异步加载,爬虫不再像之前那么方便 很多人说js异步加载与数据解析,爬虫可以做到啊,恩 ...

  7. 【解决方案】IP代理池设计与解决方案

    一.背景 爬虫服务请求量大,为了应对反爬措施,增加爬虫的爬取效率和代理IP使用率,需要设计一个IP代理池,满足以下需求: 定时任务获取第三方代理 及时剔除IP代理池中失效的IP 业务隔离IP 若IP未 ...

  8. Flask开发系列之Flask+redis实现IP代理池

    Flask开发系列之Flask+redis实现IP代理池 代理池的要求 多站抓取,异步检测:多站抓取:指的是我们需要从各大免费的ip代理网站,把他们公开的一些免费代理抓取下来:一步检测指的是:把这些代 ...

  9. 开源IP代理池续——整体重构

    开源IP代理池 继上一篇开源项目IPProxys的使用之后,大家在github,我的公众号和博客上提出了很多建议.经过两周时间的努力,基本完成了开源IP代理池IPProxyPool的重构任务,业余时间 ...

随机推荐

  1. Spring Cloud Alibaba整合Sentinel

    Spring Cloud Alibaba 整合 Sentinel 一.需求 二.实现步骤 1.下载 sentinel dashboard 2.服务提供者和消费者引入sentinel依赖 3.配置控制台 ...

  2. Ajax配合后端实现Excel的导出

    一.需求 在我们的日常开发中,可能经常需要遇到excel的导出,以往excel的导出服务器端都是使用的 GET 方法,但是某些情况下,服务器端只能使用 POST 方法,那么我们有没有好的方法实现exc ...

  3. Shadertoy 教程 Part 5 - 运用SDF绘制出更多的2D图形

    Note: This series blog was translated from Nathan Vaughn's Shaders Language Tutorial and has been au ...

  4. 使用Netty和动态代理实现一个简单的RPC

    RPC(remote procedure call)远程过程调用 RPC是为了在分布式应用中,两台主机的Java进程进行通信,当A主机调用B主机的方法时,过程简洁,就像是调用自己进程里的方法一样.RP ...

  5. C# WINFORM进销存系统开发(内涵免费源码+部分实操视频讲解)

    互联网的时代,电商火爆,大家都开始进行线上销售货品,那你是如何管理你的商品库存和进销问题?软积木--小敏用的是C# WINFORM进销存系统来管理我的数据,给我带来了很多便利. 它是高频需求项目,很多 ...

  6. HCNP Routing&Switching之BGP团体属性和团体属性过滤器

    前文我们了解了BGP的路由过滤已经as-path过滤器的使用相关话题,回顾请参考https://www.cnblogs.com/qiuhom-1874/p/15542559.html:今天我们来聊一聊 ...

  7. Spring Cloud Gateway实战之四:内置predicate小结

    欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS ...

  8. POI 4.0 读取Excel

    ... package POIXLS; import java.io.File; import java.io.FileInputStream; import java.util.ArrayList; ...

  9. 关于linux系统密码策略的设置

    由于工作需要最近需要将公司的多台linux服务器进行密码策略的设置,主要内容是增加密码复杂度. 操作步骤如下,不会的同学可以参考: 操作前需要掌握如下几个简单的知识点:(其实不掌握也行,不过学学没坏处 ...

  10. [loj3031]聚会

    对于一棵树(初始仅包含节点0),不断加入一个不在树中的节点$u$(不需要随机),并维护这棵树 具体的,对这棵树点分治,假设当前重心$v$有$d$个子树,假设其中第$i$个子树根为$r_{i}$,子树大 ...