IP 代理池

安装依赖

pip install -r requirements.txt

配置 Config/setting.py

# Config/setting.py 为项目配置文件

DB_TYPE = getenv('db_type', 'REDIS').upper()

DB_HOST = getenv('db_host', '127.0.0.1')

DB_PORT = getenv('db_port', 6379)

DB_PASSWORD = getenv('db_password', 'redis123')

""" 数据库配置 """

DATABASES = {

    "default": {

        "TYPE": DB_TYPE,

        "HOST": DB_HOST,

        "PORT": DB_PORT,

        "NAME": "proxy",

        "PASSWORD": DB_PASSWORD

    }

}

# 上面配置启动后，代理池访问地址为 http://127.0.0.1:5010

启动

# 如果你的依赖已经安装完成并且具备运行条件,可以在cli目录下通过ProxyPool.py启。动

# 程序分为: schedule 调度程序 和 webserver Api服务

# 首先启动调度程序

>>>python proxyPool.py schedule

# 然后启动webApi服务

>>>python proxyPool.py webserver

Docker

docker pull jhao104/proxy_pool

# 远程数据库

docker run --env db_type=REDIS --env db_host=x.x.x.x --env db_port=6379 --env db_password=pwd_str -p 5010:5010 jhao104/proxy_pool

# 宿主机上的数据库

docker run --env db_type=REDIS --env db_host=host.docker.internal --env db_port=6379 --env db_password=pwd_str -p 5010:5010 jhao104/proxy_pool

使用

启动过几分钟后就能看到抓取到的代理IP

api	method	Description	arg
/	GET	api介绍	None
/get	GET	随机获取一个代理	None
/get_all	GET	获取所有代理	None
/get_status	GET	查看代理数量	None
/delete	GET	删除代理

爬虫使用

如果要在爬虫代码中使用的话，可以将此api封装成函数直接使用，例如：

import requests

def get_proxy():

    return requests.get("http://127.0.0.1:5010/get/").json()

def delete_proxy(proxy):

    requests.get("http://127.0.0.1:5010/delete/?proxy={}".format(proxy))

# your spider code

def getHtml():

    # ....

    retry_count = 5

    proxy = get_proxy().get("proxy")

    while retry_count > 0:

        try:

            html = requests.get('http://www.example.com', proxies={"http": "http://{}".format(proxy)})

            # 使用代理访问

            return html

        except Exception:

            retry_count -= 1

    # 出错5次, 删除代理池中代理

    delete_proxy(proxy)

    return None

使用示例

IP 代理池的更多相关文章

开源IP代理池续——整体重构
开源IP代理池继上一篇开源项目IPProxys的使用之后,大家在github,我的公众号和博客上提出了很多建议.经过两周时间的努力,基本完成了开源IP代理池IPProxyPool的重构任务,业余时间 ...
记一次企业级爬虫系统升级改造（六）：基于Redis实现免费的IP代理池
前言: 首先表示抱歉,春节后一直较忙,未及时更新该系列文章. 近期,由于监控的站源越来越多,就偶有站源做了反爬机制,造成我们的SupportYun系统小爬虫服务时常被封IP,不能进行数据采集. 这时候 ...
爬取西刺ip代理池
好久没更新博客啦~,今天来更新一篇利用爬虫爬取西刺的代理池的小代码先说下需求,我们都是用python写一段小代码去爬取自己所需要的信息,这是可取的,但是,有一些网站呢,对我们的网络爬虫做了一些限制, ...
scrapy_随机ip代理池
什么是ip代理? 我们电脑访问网站,其实是访问远程的服务器,通过ip地址识别是那个机器访问了服务器,服务器就知道数据该返回给哪台机器,我们生活中所用的网络是局域网,ip是运营商随机分配的,是一种直接访 ...
Python爬虫之ip代理池
可能在学习爬虫的时候,遇到很多的反爬的手段,封ip 就是其中之一. 对于封IP的网站.需要很多的代理IP,去买代理IP,对于初学者觉得没有必要,每个卖代理IP的网站有的提供了免费IP,可是又很少,写了 ...
5 使用ip代理池爬取糗事百科
从09年读本科开始学计算机以来,一直在迷茫中度过,很想学些东西,做些事情,却往往陷进一些技术细节而蹉跎时光.直到最近几个月,才明白程序员的意义并不是要搞清楚所有代码细节,而是要有更宏高的方向,要有更专 ...
python开源IP代理池--IPProxys
今天博客开始继续更新,谢谢大家对我的关注和支持.这几天一直是在写一个ip代理池的开源项目.通过前几篇的博客,我们可以了解到突破反爬虫机制的一个重要举措就是代理ip.拥有庞大稳定的ip代理,在爬虫工作中 ...
python爬虫实战（三）--------搜狗微信文章（IP代理池和用户代理池设定----scrapy）
在学习scrapy爬虫框架中,肯定会涉及到IP代理池和User-Agent池的设定,规避网站的反爬. 这两天在看一个关于搜狗微信文章爬取的视频,里面有讲到ip代理池和用户代理池,在此结合自身的所了解的 ...
IP代理池之验证是否有效
IP代理池之验证是否有效把proxy pool项目跑起来,但也不知道这些ip怎么用,爬虫的时候是否用代理去爬取,下面通过一个例子来看看. 代码如下: import requests PROXY_PO ...
反爬虫之搭建IP代理池
反爬虫之搭建IP代理池听说你又被封 ip 了,你要学会伪装好自己,这次说说伪装你的头部.可惜加了header请求头,加了cookie 还是被限制爬取了.这时就得祭出IP代理池!!! 下面就是requ ...

随机推荐

前后端分离产生的跨域问题的解决方案之--jsonp、nginx代理、设置头信息等
前言在前后端没有分离的时候,前端开发要么是写静态页面,数据渲染后端来做,要么就是前端的页面和后端的代码刚开始的时候就合并在一起,每次后端代码更新了之后,前端也要更新一下代码,然后重启一下服务,还是比 ...
2.3 Go内置函数
内置函数 Go 语言拥有一些不需要进行导入操作就可以使用的内置函数.它们有时可以针对不同的类型进行操作,例如:len.cap 和 append,或必须用于系统级的操作,例如:panic.因此,它们需要 ...
Java Web之路一：过滤器（Filter）
一.过滤器(Filter)简介过滤器是对web资源进行拦截,做一些处理后再交给下一个过滤器或Servlet处理,主要可以拦截request和response 过滤器是以一种组件的形式与web程序绑定 ...
redis学习——day02_redis数据类型
一.简介 Redis不仅仅是简单的key-value 存储器,同时也是一种data structures server.传统的key-value是指支持使用一个key字符串来索引value字符串的存储 ...
poj1679最小生成树是否唯一
http://www.cnblogs.com/kuangbin/p/3147329.html #include<cstdio> #include<cstring> #inclu ...
wordpress获取当前分类的子分类
1.现在function.php里面添加下面的代码 function get_category_root_id($cat) { $this_category = get_category($cat); ...
Android_适配器(adapter)之ArrayAdapter
ArrayAdapter是一个很简单的适配器,是BaseAdapter的子类. ArrayAdapter绑定的数据是集合或数组,比较单一.视图是列表形式,ListView 或 Spinner. Arr ...
[PHP插件教程]001.Pear包管理器
PEAR是PHP扩展与应用库(the PHP Extension and Application Repository)的缩写.它是一个PHP扩展及应用的一个代码仓库. 简单地说,PEAR之于PHP就 ...
linux：基本指令
指令标准格式指令主体 [选项][操作对象] 基础指令 ls 1.ls 列出当前工作目录下的所有文件/文件夹的名称 2.ls 路径列出指定路径下的所有文件/文件夹的名称路径: 1.相对路径会用 ...
这些Java8官方挖过的坑，你踩过几个？
导读:系统启动异常日志竟然被JDK吞噬无法定位?同样的加密方法,竟然出现部分数据解密失败?往List里面添加数据竟然提示不支持?日期明明间隔1年却输出1天,难不成这是天上人间?1582年神秘消失的10 ...

IP 代理池

IP 代理池的更多相关文章

随机推荐

热门专题