Requests 代理池

Requests 本身不提供代理池，然而爬数据又要用，所以只能自己搞。其实还挺简单的。我也不知道为什么这么有用的 feature 一直没有被加入。

import requests

class Client:

    def __init__(self):

        self._session = requests.Session()

        self.proxies = None

    def set_proxy_pool(self, proxies, auth=None, https=True):

        """Randomly choose a proxy for every GET/POST request

        :param proxies: list of proxies, like ["ip1:port1", "ip2:port2"]

        :param auth: if proxy needs auth

        :param https: default is True, pass False if you don't need https proxy

        """

        from random import choice

        if https:

            self.proxies = [{'http': 'http://' + p, 'https': 'https://' + p} for p in proxies]

        else:

            self.proxies = [{'http': 'http://' + p} for p in proxies]

        def get_with_random_proxy(url, **kwargs):

            proxy = choice(self.proxies)

            kwargs['proxies'] = proxy

            if auth:

                kwargs['auth'] = auth

            return self._session.original_get(url, **kwargs)

        def post_with_random_proxy(url, *args, **kwargs):

            proxy = choice(self.proxies)

            kwargs['proxies'] = proxy

            if auth:

                kwargs['auth'] = auth

            return self._session.original_post(url, *args, **kwargs)

        self._session.original_get = self._session.get

        self._session.get = get_with_random_proxy

        self._session.original_post = self._session.post

        self._session.post = post_with_random_proxy

    def remove_proxy_pool(self):

        self.proxies = None

        self._session.get = self._session.original_get

        self._session.post = self._session.original_post

        del self._session.original_get

        del self._session.original_post

    # You can define whatever operations using self._session

替换掉 Session 原本的 get 和 post 方法就行了，不会有什么副作用。class Client 并不必需，直接操作 Session 是一样的。

可以用 httpbin 来做验证

def test_proxy():

    # visit http://cn-proxy.com/ to get available proxies if test failed

    proxy_ips = ['112.25.41.136', '180.97.29.57']

    client = Client()

    client.set_proxy_pool(proxy_ips)

    for _ in range(5):

        result = client._session.get('http://httpbin.org/ip').json()

        assert result['origin'] in proxy_ips

        result = client._session.post('http://httpbin.org/post',

                                      data={'m':'1'}).json()

        assert result['form'] == {'m': '1'}

        print(result['origin'])

        assert result['origin'] in proxy_ips

    client.remove_proxy_pool()

    client.set_proxy_pool(proxy_ips, https=False)

    for _ in range(5):

        result = client._session.get('http://httpbin.org/ip').json()

        print(result['origin'])

        assert result['origin'] in proxy_ips

转载自 ：https://laike9m.com/blog/requests-dai-li-chi,92/

Requests 代理池的更多相关文章

requests ip代理池单ip和多ip设置方式
reqeusts库,在使用ip代理时,单ip代理和多ip代理的写法不同 (目前测试通过,如有错误,请评论指正) 单ip代理模式省去headers等 import requests proxy = { ...
python代理池的构建1——代理IP类的构建，以及配置文件、日志文件、requests请求头
一.整体结构二.代理IP类的构建(domain.py文件) ''' 实现_ init_ 方法, 负责初始化,包含如下字段: ip: 代理的IP地址 port:代理IP的端口号 protocol: 代 ...
进程线程协程补充、docker-compose一键部署项目、搭建代理池、requests超时设置、认证设置、异常处理、上传文件
今日内容概要补充:进程,线程,协程 docker-compose一键部署演示搭建代理池 requests超时设置 requests认证设置 requests异常处理 requests上传文件内容 ...
Python爬虫代理池
爬虫代理IP池在公司做分布式深网爬虫,搭建了一套稳定的代理池服务,为上千个爬虫提供有效的代理,保证各个爬虫拿到的都是对应网站有效的代理IP,从而保证爬虫快速稳定的运行,当然在公司做的东西不能开源出来 ...
开源IP代理池续——整体重构
开源IP代理池继上一篇开源项目IPProxys的使用之后,大家在github,我的公众号和博客上提出了很多建议.经过两周时间的努力,基本完成了开源IP代理池IPProxyPool的重构任务,业余时间 ...
Python实现的异步代理爬虫及代理池
使用python asyncio实现了一个异步代理池,根据规则爬取代理网站上的免费代理,在验证其有效后存入redis中,定期扩展代理的数量并检验池中代理的有效性,移除失效的代理.同时用aiohttp实 ...
爬取西刺ip代理池
好久没更新博客啦~,今天来更新一篇利用爬虫爬取西刺的代理池的小代码先说下需求,我们都是用python写一段小代码去爬取自己所需要的信息,这是可取的,但是,有一些网站呢,对我们的网络爬虫做了一些限制, ...
scrapy_随机ip代理池
什么是ip代理? 我们电脑访问网站,其实是访问远程的服务器,通过ip地址识别是那个机器访问了服务器,服务器就知道数据该返回给哪台机器,我们生活中所用的网络是局域网,ip是运营商随机分配的,是一种直接访 ...
使用redis所维护的代理池抓取微信文章
搜狗搜索可以直接搜索微信文章,本次就是利用搜狗搜搜出微信文章,获得详细的文章url来得到文章的信息.并把我们感兴趣的内容存入到mongodb中. 因为搜狗搜索微信文章的反爬虫比较强,经常封IP,所以要 ...

随机推荐

帝国cms常用标签
.loop获取时间标签 /*获取年月日,时分秒.可以按照自己的需求单独获取年,或者月.*/ <?=date("Y-m-d H:i:s",$bqr[newstime])?> ...
mui APP 微信登录授权
一.在微信平台上申请appid.appsecret. 二.app --> manifest.json-->SDK配置(填写申请好的appid和appsecret) 三.在登录页,点击微信登 ...
读micro8的一些记录与思考
最近做了一段时间的攻击,个人对于整个攻击链相对来说还是比较熟悉.看了侯师傅的文章还是学到一些,做个备忘. 1.
java_day11_IO流
第十一章:IO流 1.流的概念流是个抽象的概念,是对输入输出设备的抽象,Java程序中,对于数据的输入/输出操作都是以"流"的方式进行.设备可以是文件,网络,内存等流具有方向性 ...
linux命令详解——iostat
简介 iostat主要用于监控系统设备的IO负载情况,iostat首次运行时显示自系统启动开始的各项统计信息,之后运行iostat将显示自上次运行该命令以后的统计信息.用户可以通过指定统计的次数和时间 ...
jvm监控工具jconsole进行远程监控配置
[环境] SUSE linux11 + jdk1.6 + tomcat7 [场景] 最近在做性能测试,想通过我本地(win7)上的jdk来远程监控上述服务器的jvm相关信息. [配置] 配置上述服务器 ...
In Unix, what is tar, and how do I use it?
In Unix, the name of the tar command is short for tape archiving, the storing of entire file syste ...
从n个数里面找最大的两个数理论最少需要比较
答案是:n+logn-2 过程是这样的: 甲乙比甲胜出,丙丁比丙胜出,最后甲丙比较,甲胜出...容易得出找出最大数为n-1次. 现在开始找出第二大的数字:明显,第二大的数字,一定和甲进行过比较.... ...
linux获取某一个网卡的ipv4地址
ip a show ens33 | grep inet | grep -v inet6 | awk '{print $2}' | awk -F '/' '{print $1}'
Python中的操作符及优先级
附注: 1. Python中的按位运算符是把数字看作二进制来进行计算的.Python中的按位运算法则如下: 按位与 ( bitwise and of x and y ) & 举例: 5 ...

Requests 代理池

Requests 代理池的更多相关文章

随机推荐

热门专题