前言

反爬虫是网站为了维护自己的核心安全而采取的抑制爬虫的手段，反爬虫的手段有很多种，一般情况下除了百度等网站，反扒机制会常常更新以外。为了保持网站运行的高效，网站采取的反扒机制并不是太多，今天分享几个我在爬虫过程中遇到的反扒机制，并简单介绍其解决方式。

基于User-Agent反爬

简介：服务器后台对访问的User_Agent进行统计，单位时间内同一User_Agent访问的次数超过特定的阀值，则会被不同程度的封禁IP，从而造成无法进行爬虫的状况。

解决方法：

一 . 将常见的User-Agent放到ua_list中，以列表形式进行随机使用

代码示例：

二. 加载fake_useragent库，随机生成User-Agent添加到headers中

代码示例：

2 基于IP反爬

简介: 爬虫程序可能会在短时间内对指定的服务器发起高频的请求。后台服务器对访问进行统计，单位时间内同一IP访问的次数超过一个特定的值（阀值），就会不同程度的禁封IP，导致无法进行爬虫操作。

解决方法：使用代理池，并设定延迟访问

如何获取代理服务器？免费：西祠代理、快代理、goubanjia 收费：代理精灵等

代码示例：

3 基于cookie反扒

简介：网站会通过cookie跟踪你的访问过程，如果发现有爬虫行为会立刻中断你的访问，比如特别快的填写表单，或者短时间内浏览大量页面。而正确地处理cookie，又可以避免很多采集问题，建议在采集网站过程中，检查一下这些网站生成的cookie，然后想想哪一个是爬虫需要处理的。

解决方法：

一手动处理

将cookie封装到headers字典中，将该字典作用到get/post方法的headers参数中

二自动处理

需要两次处理。第一次是为了捕获和存储cookie到session对象中，第二次就是用携带cookie的session进行请求发送，这次请求发送就是携带cookie发起的请求。可以跟requests一样调用get/post进行请求的发送。在使用session进行请求发送的过程中，如果产生了cookie，则cookie会被自动存储session对象中

代码示例：

#基于session自动处理cookiesess = requests.Session()#该次请求只是为了捕获cookie存储到sess中sess.get(url='https://xueqiu.com/',headers=headers)url = 'https://xueqiu.com/v4/statuses/public_timeline_by_category.json?since_id=-1&max_id=20367942&count=15&category=-1'json_data = sess.get(url=url,headers=headers).json()json_data

4 图片懒加载

简介：图片懒加载是一种网页优化技术。图片作为一种网络资源，在被请求时也与普通静态资源一样，将占用网络资源，而一次性将整个页面的所有图片加载完，将大大增加页面的首屏加载时间。为了解决这种问题，通过前后端配合，使图片仅在浏览器当前视窗内出现时才加载该图片，达到减少首屏图片请求数的技术就被称为“图片懒加载”。在网页源码中，在img标签中首先会使用一个“伪属性”（通常使用src2，original......）去存放真正的图片链接而并非是直接存放在src属性中。当图片出现到页面的可视化区域中，会动态将伪属性替换成src属性，完成图片的加载。

解决方法：通过细致观察页面的结构，发现图片的链接真正链的伪属性中，一般不在src中，而是src2中，xpath要使用该属性

示例代码：

5 Ajax动态加载

简介：从网页的 url 加载网页的源代码之后，会在浏览器里执行JavaScript程序。这些程序会加载出更多的内容，并把这些内容传输到网页中。这就是为什么有些网页直接爬它的URL时却没有数据的原因。现在这样的网站也越来越多。
解决方法:使用审查元素分析”请求“对应的链接(方法：右键→审查元素→Network→清空，点击”加载更多“，出现对应的GET链接寻找Type为text/html的，点击，查看get参数或者复制Request URL)，循环过程。如果“请求”之前有页面，依据上一步的网址进行分析推导第1页。以此类推，抓取抓Ajax地址的数据。对返回的json使用requests中的json进行解析，观察动态加载的规律，在请求头中对规律进行使用

抓包工具推荐:fiddler

python干货：5种反扒机制的解决方法的更多相关文章

网络协议反扒机制 fidder 抓包工具
协议 http 协议: client 端 server 端交互的一种形式请求头信息: User-Agent: 情求载体的身份标识 connection: 'close' 连接状态请求成功后断开 ...
05: 常用反扒机制 & 解决方法
1.1 常用反扒机制参考博客:https://blog.csdn.net/python36/article/details/90174300 1.header 浏览器的请求头 header中添 ...
ADB几种常见的错误及解决方法
下面列举出几种常见的错误及解决方法. Q1:无效的安装包,安装包已损坏[INSTALL_FAILED_INVALID_APK] A1:请检查安装包是否完整.如果是xpk包,可以通过手动安装xpk来检 ...
python学习笔记（9）--Python UnicodeEncodeError: 'gbk' codec can't encode character 解决方法
Python UnicodeEncodeError: 'gbk' codec can't encode character 解决方法这篇文章主要介绍了Python UnicodeEncodeErro ...
python listdir() 中文路径中文文件夹乱码解决方法
python listdir() 中文路径中文文件夹乱码解决方法 listdir(path)返回的结果的编码似乎和我们提供的 path 参数的编码有关: path = 'd:/test' try ...
python 爬虫 urllib模块反爬虫机制UA
方法: 使用urlencode函数 urllib.request.urlopen() import urllib.request import urllib.parse url = 'https:// ...
Python爬虫实战——反爬机制的解决策略【阿里】
这一次呢,让我们来试一下"CSDN热门文章的抓取". 话不多说,让我们直接进入CSND官网. (其实是因为我被阿里的反爬磨到没脾气,不想说话--) 一.URL分析输入" ...
Python Socket通信黏包问题分析及解决方法
参考:http://www.cnblogs.com/Eva-J/articles/8244551.html#_label5 1.黏包的表现(以客户端远程操作服务端命令为例) 注:只有在TCP协议通信的 ...
jenkins 构建selenium python （浏览器驱动是chromedriver）的解决方法
1.在chrome浏览去中输入chrome://version 查看chrome 的安装位置 2.将chromedriver 驱动添加到可执行文件路径中 3.在Jenkins中的系统设置中-环境变 ...

随机推荐

angularJS表达式和指令
主要是描述angularJS如何扩展html的:(模型后面会涉及) 例子1:通过指令来扩展html <body ng-app="myapp"> <!-- ng ...
题解 P2070 【刷墙】
前言 $ZHK$私人博客体验更佳这道题目,$n<=10^5$,显然在暗示我们使用$n \log n$的做法,我就是用了一个简单的贪心,通过了此题. 正文在这道题中,我们发现,可以 ...
计算几何-Minimum Area Rectangle II
2020-02-10 21:02:13 问题描述: 问题求解: 本题由于可以暴力求解,所以不是特别难,主要是用来熟悉计算几何的一些知识点的. public double minAreaFreeRect ...
shell编程之脚本参数$@,$*,$#,$$,$?的含义
#首先按顺序解释各个参数的含义 1.$0 表示脚本的文件名, 具体的路径信息和执行命令时的相对位置有关,例如 sakura@mi-OptiPlex-7050:~/sh$ sh args.sh arg ...
完整说明使用SpringBoot+js实现滑动图片验证
常见的网站验证方式有手机短信验证,图片字符验证,滑块验证,滑块图片验证．本文主要讲解的是滑块图片验证的实现流程．包括后台和前端的实现．实现效果使用的API java.awt.image.Buffe ...
搭建SQL server AwaysOn集群
1.环境系统:windows server 2012 R2 数据库版本:SQL server 2012 三台服务器,IP分别是:10.10.10.111,10.10.10.112,10.10.10. ...
coding++：RateLimiter 限流算法之漏桶算法、令牌桶算法--简介
RateLimiter是Guava的concurrent包下的一个用于限制访问频率的类 <dependency> <groupId>com.google.guava</g ...
coding++：JS/jQuery获取兄弟姐妹等元素
jQuery获取: jQuery.parent(expr),找父亲节点,可以传入expr进行过滤,比如$("span").parent()或者$("span") ...
以个人身份加入.NET基金会
.NET 走向开源,MIT许可协议. 微软为了推动.NET开源社区的发展,2014年联合社区成立了.NET基金会. 一年前 .NET 基金会完成第一次全面改选,2014年 .NET基金会的创始成员中有 ...
.Net微服务实践（二）：Ocelot介绍和快速开始
目录介绍基本原理集成方式快速开始创建订单服务创建产品服务创建网关运行验证最后上篇.Net微服务实践(一):微服务框架选型我们对微服务框架整体做了介绍,接下来我们从网关Ocelot ...

python干货：5种反扒机制的解决方法

前言

python干货：5种反扒机制的解决方法的更多相关文章

随机推荐

热门专题