小白学 Python 爬虫（30）：代理基础

我们先使用 urllib 来做测试，测试的链接就选择：https://httpbin.org/get 这个我们之前用过的测试链接，访问该站点可以得到请求的一些相关信息，其中 origin 字段就是请求来源的 IP，我们可以根据它来判断代理是否设置成功，也就是是否成功伪装了 IP ，代理嘛小编就在网上随便找了个免费的高匿代理，示例如下：

from urllib.error import URLError

from urllib.request import ProxyHandler, build_opener

proxy_handler = ProxyHandler({

    'http': 'http://182.34.37.0:9999',

    'https': 'https://117.69.150.84:9999'

})

opener = build_opener(proxy_handler)

try:

    response = opener.open('https://httpbin.org/get')

    print(response.read().decode('utf-8'))

except URLError as e:

    print(e.reason)

代码很简单，我们看下执行结果：

{

  "args": {},

  "headers": {

    "Accept-Encoding": "identity",

    "Host": "httpbin.org",

    "User-Agent": "Python-urllib/3.7"

  },

  "origin": "117.69.150.84, 117.69.150.84",

  "url": "https://httpbin.org/get"

}

可以看到，目标服务器已经认为我们是由代理访问的了， origin 参数显示的是我们的代理服务器的 IP 。

注意： 这里我们使用了 ProxyHandler 来进行代理设置，ProxyHandler 的参数类型是字典类型， key 是我们使用的协议，而值是我们具体所使用的代理，小编这里设置了两个代理，一个是 http 的还有一个是 https 的，当我们请求的链接是 http 的会自动的选择我们的 http 的代理，当我们的请求的链接是 https 的时候则会自动的选择我们设置的 https 的代理。

Requests

对于 Requests 来讲，代理的设置更加的简单加直白。示例代码如下：

import requests

proxies = {

    'http': 'http://59.52.186.117:9999',

    'https': 'https://222.95.241.6:3000',

}

try:

    response = requests.get('https://httpbin.org/get', proxies = proxies)

    print(response.text)

except requests.exceptions.ConnectionError as e:

    print('Error', e.args)

结果如下：

{

  "args": {},

  "headers": {

    "Accept": "*/*",

    "Accept-Encoding": "gzip, deflate",

    "Host": "httpbin.org",

    "User-Agent": "python-requests/2.22.0"

  },

  "origin": "222.95.241.6, 222.95.241.6",

  "url": "https://httpbin.org/get"

}

小编这里选择的还是高匿代理，所以这里显示出来的 IP 还是我们代理的 IP 。

Selenium

Selenium 同样可以设置代理，同时也非常简单，示例如下：

from selenium import webdriver

proxy = '222.95.241.6:3000'

chrome_options = webdriver.ChromeOptions()

chrome_options.add_argument('--proxy-server=https://' + proxy)

driver = webdriver.Chrome(chrome_options=chrome_options)

driver.get('https://httpbin.org/get')

结果如下：

设置 FireFox 浏览器和设置 Chrome 浏览器近乎一样，唯一的区别就是在初始化的时候初始化一个 FireFox ，并且在这是启动参数的是时候使用 FirefoxOptions() 方法，其他的无任何区别，同学们可以自己尝试下。

免费代理

因为免费代理的连通率和稳定性确实不高，小编这里找了几个免费代理的网站，仅供大家参考使用：

http://www.ip3366.net/

https://www.kuaidaili.com/free/

https://www.xicidaili.com/

示例代码

本系列的所有代码小编都会放在代码管理仓库 Github 和 Gitee 上，方便大家取用。

示例代码-Github

示例代码-Gitee

参考

https://www.jianshu.com/p/bb00a288ee5f