用于大数据采集用的代理池 在数据采集的过程中,最需要的就是一直变化的代理ip。 自建adsl为问题是只有一个区域的IP。 买的代理存在的问题是不稳定,影响采集效率。 云vps不允许安装花生壳等,即使有花生壳,它的解析也不及时,跟不上3分钟变一次。 本项目的作用是将目前的云vps,安装代理软件,然后使用脚本每隔3分钟拨号一次,返回当前可用的ip给代理池,代理池记录后,提供给API接口给采集程序调用。

一共有几个板块:代理主机拨号返回ip,代理池接受ip并记录然后提供给采集程序,统计代理主机的数量、每台提供的ip数量等,检查代理ip是否异常并展示到网页,简单的认证,网页执行命令管理云主机。

项目有个巧妙的地方分享给大家,就是对于后端的采集程序对于api的调用的频率是极高的,每秒可达几百上千次。因为数据量不大,所以全放内存运行,数据库只是接收到新ip地址后在改变了内存里面的变量的同时写到数据作为备份,如果程序出错,启动的时候先加载数据库的数据到内存。

代理池的程序在ProxyApi.tar中,使用的django框架,当时急用没有写注释,供大家参考。

1、安装软件:

我们使用的云立方的云vps,每季度打折后200元不到。推荐系统用centos,它自动将adsl的账号密码弄好。

yum -y install squid

yum install -y httpd-tools

yum install -y openssl

2、设置代理的账号和密码:

touch /etc/squid/squid_passwd

chown squid /etc/squid/squid_passwd

htpasswd /etc/squid/squid_passwd proxy #会提示输入两次密码

3、写入配置文件:

/etc/squid/squid.conf

4、设置开机启动和重启squid:

systemctl enable squid && systemctl restart squid

5、写入拨号脚本:

adsl.py

6、启动拨号脚本:

#也可以写到/etc/rc.d/rc.local,记得把/etc/rc.d/rc.local设置可执行权限,不然不起作用。

nohup python adsl.py

7、查询方式,API的接口: 因为公司有几种语言,使用的代理格式不一样,所以这里只返回一个ip地址,代理的端口、用户名、密码是固定的,采集程序自己写。

http://ip:port/getip 所有随机

http://ip:port/getip?ip=云主机名称 按云主机名称查询

http://ip:port/getip?addr=重庆移动,重庆电信&tof=f 按地区随机,addr可以是单值,也可以使多值,多值用小写的,分割,tof (true or false),不写默认为t,传值f表示非

8、管理:

http://ip:port/checkip ,状态查询,可以只看故障的主机(只是时间有底色表示最近三次IP重复,暂时不可用,如果前面ip和时间都有底色,表示云主机没有继续提供新ip了,需要排查。),点击主机名称可以看单个主机最近提供的ip,和总的提供的ip及不重复的ip。

http://ip:port/shell ,可以在网页上执行命令,主要是查看和运行和重启等,vi什么的需要交互的命令是用不了的,top的话,记得用top -n 1;进入之前会有一个认证,后台可以改变密码,主机加入到代理池,程序会自动把云主机的名字写到主机管理里面,但是管理ip及端口、账号、密码需要手动添加,配置后才能网页执行命令。

主机管理,一页可以完成增删改查,没有做那么的限制和页面。可以查看所有的,也可以分组查看,方便后期在选择vps区域的时候参考。

执行命令这里,讲一下,做的还算完善,看注释,如果选择了主机的话,就有ip,然后就执行这一个主机,如果只选分组,不选主机就分组内的机器全部执行,然后按顺序返回,如果执行多条命令,会分别添加到相应的黑色区域,然后你也可以在主机的下面分别执行命令。部分主机调试好了,也可以关闭,不会影响其他主机的窗口。如果显示太多了,还可以清屏。

项目地址:https://github.com/xuyingzhong/ProxyApi

ProxyApi-大数据采集用的IP代理池的更多相关文章

  1. 记一次企业级爬虫系统升级改造(六):基于Redis实现免费的IP代理池

    前言: 首先表示抱歉,春节后一直较忙,未及时更新该系列文章. 近期,由于监控的站源越来越多,就偶有站源做了反爬机制,造成我们的SupportYun系统小爬虫服务时常被封IP,不能进行数据采集. 这时候 ...

  2. 5 使用ip代理池爬取糗事百科

    从09年读本科开始学计算机以来,一直在迷茫中度过,很想学些东西,做些事情,却往往陷进一些技术细节而蹉跎时光.直到最近几个月,才明白程序员的意义并不是要搞清楚所有代码细节,而是要有更宏高的方向,要有更专 ...

  3. Python爬虫之ip代理池

    可能在学习爬虫的时候,遇到很多的反爬的手段,封ip 就是其中之一. 对于封IP的网站.需要很多的代理IP,去买代理IP,对于初学者觉得没有必要,每个卖代理IP的网站有的提供了免费IP,可是又很少,写了 ...

  4. python开源IP代理池--IPProxys

    今天博客开始继续更新,谢谢大家对我的关注和支持.这几天一直是在写一个ip代理池的开源项目.通过前几篇的博客,我们可以了解到突破反爬虫机制的一个重要举措就是代理ip.拥有庞大稳定的ip代理,在爬虫工作中 ...

  5. 反爬虫之搭建IP代理池

    反爬虫之搭建IP代理池 听说你又被封 ip 了,你要学会伪装好自己,这次说说伪装你的头部.可惜加了header请求头,加了cookie 还是被限制爬取了.这时就得祭出IP代理池!!! 下面就是requ ...

  6. 打造IP代理池,Python爬取Boss直聘,帮你获取全国各类职业薪酬榜

    爬虫面临的问题 不再是单纯的数据一把抓 多数的网站还是请求来了,一把将所有数据塞进去返回,但现在更多的网站使用数据的异步加载,爬虫不再像之前那么方便 很多人说js异步加载与数据解析,爬虫可以做到啊,恩 ...

  7. 【解决方案】IP代理池设计与解决方案

    一.背景 爬虫服务请求量大,为了应对反爬措施,增加爬虫的爬取效率和代理IP使用率,需要设计一个IP代理池,满足以下需求: 定时任务获取第三方代理 及时剔除IP代理池中失效的IP 业务隔离IP 若IP未 ...

  8. Flask开发系列之Flask+redis实现IP代理池

    Flask开发系列之Flask+redis实现IP代理池 代理池的要求 多站抓取,异步检测:多站抓取:指的是我们需要从各大免费的ip代理网站,把他们公开的一些免费代理抓取下来:一步检测指的是:把这些代 ...

  9. 开源IP代理池续——整体重构

    开源IP代理池 继上一篇开源项目IPProxys的使用之后,大家在github,我的公众号和博客上提出了很多建议.经过两周时间的努力,基本完成了开源IP代理池IPProxyPool的重构任务,业余时间 ...

随机推荐

  1. Go语言核心36讲(Go语言进阶技术八)--学习笔记

    14 | 接口类型的合理运用 前导内容:正确使用接口的基础知识 在 Go 语言的语境中,当我们在谈论"接口"的时候,一定指的是接口类型.因为接口类型与其他数据类型不同,它是没法被实 ...

  2. 五分钟搞懂spring-cloud-square

    欢迎访问我的GitHub 这里分类和汇总了欣宸的全部原创(含配套源码):https://github.com/zq2599/blog_demos 初识spring-cloud-square 2021年 ...

  3. [hi3521] nand flash 的 boot 启动模式的区别?

    spi nand flash 的 boot 启动模式选择.0:1 线 boot:1:4 线 boot.请问,1线boot和4线boot有什么区别呢?该如何选择呢?     收藏 顶 踩   回复 使用 ...

  4. hdu 2586 How far away? (LCA模板)

    题意: N个点,形成一棵树,边有长度. M个询问,每个询问(a,b),询问a和b的距离 思路: 模板题,看代码.DFS预处理算出每个结点离根结点的距离. 注意: qhead[maxn],而不是qhea ...

  5. zabbix web管理页面 中文乱码问题

    1.在自己电脑上找下图文件,C:\Windows\Fonts 2.上传到 /usr/share/zabbix/assets/fonts/ 目录下 可以看到 graphfont.ttf 是 /etc/a ...

  6. Linux&C open creat read write lseek 函数用法总结

    一:五个函数的参数以及返回值. 函数                                 参数                      返回值     open (文件名,打开方式以及读 ...

  7. java 三大特性_继承、封装、多态_day005

    一.继承: java的三大特性之一.两个类之间通过extends关键字来描述父子关系,子类便可拥有父类的公共方法和公共属性.子类可以继承父类的方法和属性,子类也可以自己定义没有的方法或者通过覆盖父类的 ...

  8. win10 vscode安装babel

    第一步:安装 babel-cli cd进入项目根目录,执行命令: npm install --global babel-cli 第二步:检测第一步是否成功,输入命令 babel --version,若 ...

  9. 公司项目被扫出来一个Druid未授权访问漏洞

    这不是阿里druid的监控页面吗?接下来查看项目配置 1.在web.xml中有如下配置: <filter> <filter-name>DruidWebStatFilter< ...

  10. SQL里ORDER BY 对查询的字段进行排序,字段为空不想排在最前

    在安字段排序时 空字段往往都是在最前,我只是想空字段在排序的后面,不为空的在前,这个如何修改呢 order by datatime desc   这样的句子也一样  不管是正排还是倒排  为空的都在最 ...