反反爬虫 IP代理

0x01 前言

一般而言，抓取稍微正规一点的网站，都会有反爬虫的制约。反爬虫主要有以下几种方式：

通过UA判断。这是最低级的判断，一般反爬虫不会用这个做唯一判断，因为反反爬虫非常容易，直接随机UA即可解决。
通过单IP频繁访问判断。这个判断简单，而且反反爬虫比较费力，反爬虫绝佳方案。需采用多IP抓取。
通过Cookie判断，例如通过会员制账号密码登陆，判断单账号短时间抓取次数判断。这个反反爬虫也很费力。需采用多账号抓取。
动态页面加载。这个考验前端工程师的功底，如果前端写的好，各种JS判断，各种逻辑，像百度，淘宝一样，post登录很难。较好的方法，但是对于大牛，还是防不胜防。反反爬虫多采用渲染浏览器抓取，效率低下。
采用验证码。这里要么是登录的时候有验证码，要么是判断是爬虫时，不封IP，而是采用验证码验证，例如链家网。验证码是反爬虫性价比较高的方案。反反爬虫一般接入OCR验证码识别平台或者人工打码平台，亦或者利用Tesseract OCR识别，亦或者采用神经网络训练识别验证码等。

0x02 概要

今天我们先主要来讲一讲，如何应对第2条的反反爬虫，如何通过多IP抓取。

通过多IP爬虫，又分为以下几种形式：

通过ADSL拨号换IP。每拨一次就会有一个新IP，较好解决IP单一问题。
如果是局域网，带路由器的，第一种方法可能不好用。这个时候可以模拟登陆路由器，控制路由器重新拨号，换IP，这其实是一种折中的办法，曲线救国。
代理IP，利用购买的或者网上抓取的免费代理IP，实现多IP爬虫。
分布式爬虫。采用多个服务器，多个IP，多个slave爬虫同时运行，由master负责调度。效率较高，属于大型分布式抓取，一般用redis分布式抓取，不表。
最近了解到一种新的加密的代理网络。Tor匿名网络，利用这个也能匿名换IP。这个还没有详细了解，不表。

0x03 正文

1. ADSL拨号

我一般是在windows平台ADSL拨号，其他平台暂时没用过。windows平台拨号，我一般用python的代码为：

# -*- coding: utf-8 -*-

import os

g_adsl_account = {"name": u"宽带连接",

                "username": "xxxx",

                "password": "xxxx"}

class Adsl(object):

    # =============================

    # __init__ : name: adsl名称

    # =============================

    def __init__(self):

        self.name = g_adsl_account["name"]

        self.username = g_adsl_account["username"]

        self.password = g_adsl_account["password"]

    # =============================

    # set_adsl : 修改adsl设置

    # =============================

    def set_adsl(self, account):

        self.name = account["name"]

        self.username = account["username"]

        self.password = account["password"]

    # =============================

    # connect : 宽带拨号

    # =============================

    def connect(self):

        cmd_str = "rasdial %s %s %s" % (self.name, self.username, self.password)

        os.system(cmd_str)

        time.sleep(5)

    # =============================

    # disconnect : 断开宽带连接

    # =============================

    def disconnect(self):

        cmd_str = "rasdial %s /disconnect" % self.name

        os.system(cmd_str)

        time.sleep(5)

    #=============================

    # reconnect : 重新进行拨号

    #=============================

    def reconnect(self):

        self.disconnect()

        self.connect()

2. 路由器拨号

如果是局域网，带路由器的。直接调用windows的rasdial命令无法拨号时，这个时候可以模拟登陆路由器，控制路由器重新拨号，换IP，这其实是一种折中的办法，曲线救国。下面以登录小米路由器示例：

# -*- coding: utf-8 -*-

import requests

import urllib

from Crypto.Hash import SHA

import time

import json

import re

import random

import datetime

class Adsl():

    def __init__(self):

        self.host = '192.168.31.1/'

        self.username = 'admin'

        self.password = 'huangxin250'

    def connect(self):

        host = self.host

        homeRequest = requests.get('http://' + host + '/cgi-bin/luci/web/home')

        key = re.findall(r'key: \'(.*)\',', homeRequest.text)[0]

        mac = re.findall(r'deviceId = \'(.*)\';', homeRequest.text)[0]

        aimurl = "http://" + host + "/cgi-bin/luci/api/xqsystem/login"

        nonce = "0_" + mac + "_" + str(int(time.time())) + "_" + str(random.randint(1000, 10000))

        pwdtext = self.password

        pwd = SHA.new()

        pwd.update(pwdtext + key)

        hexpwd1 = pwd.hexdigest()

        pwd2 = SHA.new()

        pwd2.update(nonce + hexpwd1)

        hexpwd2 = pwd2.hexdigest()

        data = {

            "logtype": 2,

            "nonce": nonce,

            "password": hexpwd2,

            "username": self.username

        }

        response = requests.post(url=aimurl, data=data, timeout=15)

        resjson = json.loads(response.content)

        token = resjson['token']

        webstop = urllib.urlopen('http://192.168.31.1/cgi-bin/luci/;stok=' + token + '/api/xqnetwork/pppoe_stop')

        #time.sleep(1)

        webstart = urllib.urlopen('http://192.168.31.1/cgi-bin/luci/;stok=' + token + '/api/xqnetwork/pppoe_start')

        date = datetime.datetime.now()

        nowtime = str(date)[:-10]

        print nowtime + ', congratulations, the IP is changed !'

利用这个方法，就实现了用路由器换IP的目的。该方法的缺陷也是很明显的。就是不像第一种方法那样通用。基本上一个路由器就得编一套代码，属于定制代码。

3. 代理IP

代理IP是最常见的一种多IP爬虫方法。在请求Headers中加入代理IP地址，即可实现代理IP抓取。缺陷是爬取速度和代理IP的速度息息相关。而且好的IP费用较高，免费的速度普遍不高。

附上requests抓取携带代理IP和selenium抓取携带代理IP的代码。

requests:

# -*- coding: utf-8 -*-

import requests

reload(sys)

sys.setdefaultencoding('utf-8')

type = sys.getfilesystemencoding()

s = requests.session()

proxie = {

        'http' : 'http://122.193.14.102:80'

    }

url = 'xxx'

response = s.get(url, verify=False, proxies = proxie, timeout = 20)

print response.text

selenium:

from selenium import webdriver

from selenium.webdriver.common.proxy import Proxy

from selenium.webdriver.common.proxy import ProxyType

proxy = Proxy(

    {

        'proxyType': ProxyType.MANUAL,

        'httpProxy': 'ip:port'

    }

)

desired_capabilities = DesiredCapabilities.PHANTOMJS.copy()

proxy.add_to_capabilities(desired_capabilities)

driver = webdriver.PhantomJS(

    executable_path="/path/of/phantomjs",

    desired_capabilities=desired_capabilities

    )

driver.get('http://httpbin.org/ip')

print driver.page_source

driver.close()

反反爬虫 IP代理的更多相关文章

第三百二十九节，web爬虫讲解2—urllib库爬虫—ip代理—用户代理和ip代理结合应用
第三百二十九节,web爬虫讲解2—urllib库爬虫—ip代理使用IP代理 ProxyHandler()格式化IP,第一个参数,请求目标可能是http或者https,对应设置build_opener ...
八 web爬虫讲解2—urllib库爬虫—ip代理—用户代理和ip代理结合应用
使用IP代理 ProxyHandler()格式化IP,第一个参数,请求目标可能是http或者https,对应设置build_opener()初始化IPinstall_opener()将代理IP设置成全 ...
爬虫-ip代理
代理(proxy) 代理服务器:实现请求转发,从而可以实现更换请求的ip地址代理的匿名度: 透明:服务器知道你使用了代理并且知道你的真实ip 匿名:服务器知道你使用了代理,但是不知道你的真实ip 高 ...
设置python爬虫IP代理(urllib/requests模块)
urllib模块设置代理如果我们频繁用一个IP去爬取同一个网站的内容,很可能会被网站封杀IP.其中一种比较常见的方式就是设置代理IP from urllib import request proxy ...
免费IP代理池定时维护，封装通用爬虫工具类每次随机更新IP代理池跟UserAgent池，并制作简易流量爬虫
前言我们之前的爬虫都是模拟成浏览器后直接爬取,并没有动态设置IP代理以及UserAgent标识,本文记录免费IP代理池定时维护,封装通用爬虫工具类每次随机更新IP代理池跟UserAgent池,并制作 ...
打造IP代理池，Python爬取Boss直聘，帮你获取全国各类职业薪酬榜
爬虫面临的问题不再是单纯的数据一把抓多数的网站还是请求来了,一把将所有数据塞进去返回,但现在更多的网站使用数据的异步加载,爬虫不再像之前那么方便很多人说js异步加载与数据解析,爬虫可以做到啊,恩 ...
python之squid实现免费 IP代理 (windows win7 单机本机本地正向代理区分 HTTPS)
0.目录 1.思路2.windows安装3.相关命令行4.简单配置和初步使用5.问题:squid是否支持HTTPS6.问题:配置多个代理条目,相同ip不同port报错7.问题:根据代理请求区分HTTP ...
反爬虫之搭建IP代理池
反爬虫之搭建IP代理池听说你又被封 ip 了,你要学会伪装好自己,这次说说伪装你的头部.可惜加了header请求头,加了cookie 还是被限制爬取了.这时就得祭出IP代理池!!! 下面就是requ ...
python3爬虫系列19之反爬随机 User-Agent 和 ip代理池的使用
站长资讯平台:python3爬虫系列19之随机User-Agent 和ip代理池的使用我们前面几篇讲了爬虫增速多进程,进程池的用法之类的,爬虫速度加快呢,也会带来一些坏事. 1. 前言比如随着我们爬虫 ...

随机推荐

本地phpstudy时常停机连接失败，php.ini文件中9000端口问题
2018/01/05 13:35:07 [error] 20508#19380: *1 WSARecv() failed (10054: An existing connection was forc ...
mysql之repair table 修复表札记
REPAIR [LOCAL | NO_WRITE_TO_BINLOG] TABLE tbl_name[,tbl_name] ... [QUICK] [EXTENDED] [USE_FRM] REP ...
webzip怎么用如何用webzip下载整个网站？
相信很多站长对webzip这款软件都并不感到陌生,它功能强大,能够完整下载网站的内容,或者你也可以选择自行设置下载的层数.文件类型.网页与媒体文件的定位等等.具体详情你可以在百度上去搜一下.由于web ...
修改国内yum源
yum的源配置文件名为:CentOS-Base.repo 一般情况是在/etc/yum.repos.d目录下有CentOS-Base.repo 备份CentOS-Base.repo文件打开这个网站h ...
003_JS基础_面向对象基础
3.1 对象引入:在js中表示一个人的信息(name, gender, age)通过var申明三个变量,但是这样使用基本数据类型的变量,他们是互相独立的,没有联系: 此时就需要使用对象,对象是 ...
IDEA关掉重复代码波浪线
如图: File----Settings
Java 几种动态代理实现及其性能比较
原处出之于阿里liangf Interface: package com.sunchao.jdkdyproxy; public interface Subject { void request(); ...
在windows64位Anaconda3环境下安装XGBoost
安装步骤参考的是: "Installing XGBoost For Anaconda on Windows":https://www.ibm.com/developerworks/ ...
rsync - 远程同步工具
一直没有对这个命令太有深入的理解简介 rsync 即 remote sync,一个远程与本地文件同步工具.rsync 使用的算法能够最小化所需复制的数据,因为它只移动那些修改了的文件. rsync ...
mybatis-自定义typeHandler
场景一:有个java.util.Date在存入数据库的时候自动转换为timestamp时间戳,从数据库取值的时候把时间戳自动转换为java.util.Date 表结构 CREATE TABLE `us ...