反爬虫的几重措施

很多人学习python，不知道从何学起。
很多人学习python，掌握了基本语法过后，不知道在哪里寻找案例上手。
很多已经做案例的人，却不知道如何去学习更加高深的知识。
那么针对这三类人，我给大家提供一个好的学习平台，免费领取视频教程，电子书籍，以及课程的源代码！
QQ群：1097524789

1.IP限制

如果是个人编写的爬虫，IP可能是固定的，那么发现某个IP请求过于频繁并且短时间内访问大量的页面，有爬虫的嫌疑，作为网站的管理或者运维人员，你可能就得想办法禁止这个IP地址访问你的网页了。那么也就是说这个IP发出的请求在短时间内不能再访问你的网页了，也就暂时挡住了爬虫。

2.User-Agent

User-Agent是用户访问网站时候的浏览器的标识

下面我列出了常见的几种正常的系统的User-Agent大家可以参考一下，

并且在实际发生的时候，根据浏览器的不同，还有各种其他的User-Agent，我举几个例子方便大家理解：

safari 5.1 – MAC

User-Agent:Mozilla/5.0 (Macintosh; U; IntelMac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1Safari/534.50

Firefox 4.0.1 – MAC

User-Agent: Mozilla/5.0 (Macintosh; IntelMac OS X 10.6; rv:2.0.1) Gecko/20100101 Firefox/4.0.1

Firefox 4.0.1 – Windows

User-Agent:Mozilla/5.0 (Windows NT 6.1;rv:2.0.1) Gecko/20100101 Firefox/4.0.1

同样的也有很多的合法的User-Agent，只要用户访问不是正常的User-Agent极有可能是爬虫再访问，这样你就可以针对用户的User-Agent进行限制了。

3、验证码反爬虫

这个办法也是相当古老并且相当的有效果，如果一个爬虫要解释一个验证码中的内容，这在以前通过简单的图像识别是可以完成的，但是就现在来讲，验证码的干扰线，噪点都很多，甚至还出现了人类都难以认识的验证码（某二三零六）。

4.Ajax异步加载

5.Noscript标签的使用

6.Cookie限制

第一次打开网页会生成一个随机cookie，如果再次打开网页这个cookie不存在，那么再次设置，第三次打开仍然不存在，这就非常有可能是爬虫在工作了。很简单，在三番屡次没有带有该带的cookie，就禁止访问。

爬虫编写注意事项

在这一部分，笔者希望就自己的经验给大家编写爬虫提供比较可行的建议，也为大家提一个醒：

1.道德问题，是否遵守robots协议；

2.小心不要出现卡死在死循环中，尽量使用urlparser去解析分离url决定如何处理，如果简单的想当然的分析url很容易出现死循环的问题；

3.单页面响应超时设置，默认是200秒，建议调短，在网络允许的条件下，找到一个平衡点，避免所有的爬虫线程都在等待200，结果出现效率降低；

4.高效准确的判重模式，如果判重出现问题，就会造成访问大量已经访问过的页面浪费时间；

5.可以采用先下载，后分析的方法，加快爬虫速度；

6.在异步编程的时候要注意资源死锁问题；

7.定位元素要精准（xpath）尽量避免dirty data。

希望大家提出自己的意见，本系列大多数时间都在从微观的角度讲爬虫各个部件的解决方案。

Python爬虫开发：反爬虫措施以及爬虫编写注意事项的更多相关文章

python自动化开发-[第二十三天]-初识爬虫
今日概要: 1.爬汽车之家的新闻资讯 2.爬github和chouti 3.requests和beautifulsoup 4.轮询和长轮询 5.django request.POST和request. ...
【学习笔记】第一章 python安全开发简介
1.1为什么黑客喜欢用python? python为我们提供了非常完善的基础代码库,覆盖了网络.文件.GUI.数据库.文本等大量内容,被形象的称为“”内置电池“”,用python开发,许多功能不必从零 ...
Python爬虫开发与项目实战
Python爬虫开发与项目实战(高清版)PDF 百度网盘链接:https://pan.baidu.com/s/1MFexF6S4No_FtC5U2GCKqQ 提取码:gtz1 复制这段内容后打开百度 ...
Python爬虫入门教程 61-100 写个爬虫碰到反爬了，动手破坏它！
python3爬虫遇到了反爬当你兴冲冲的打开一个网页,发现里面的资源好棒,能批量下载就好了,然后感谢写个爬虫down一下,结果,一顿操作之后,发现网站竟然有反爬措施,尴尬了. 接下来的几篇文章,我们 ...
Python爬虫与反爬虫（7）
[Python基础知识]Python爬虫与反爬虫(7) 很久没有补爬虫了,相信在白蚁二周年庆的活动大厅比赛中遇到了关于反爬虫的问题吧这节我会做个基本分享. 从功能上来讲,爬虫一般分为数据采集,处理, ...
Python分布式爬虫开发搜索引擎 Scrapy实战视频教程
点击了解更多Python课程>>> Python分布式爬虫开发搜索引擎 Scrapy实战视频教程课程目录 |--第01集教程推介 98.23MB |--第02集 windows下 ...
爬虫开发python工具包介绍（1）
本文来自网易云社区作者:王涛本文大纲: 简易介绍今天要讲解的两个爬虫开发的python库详细介绍 requests库及函数中的各个参数详细介绍 tornado 中的httpcilent的应用 ...
Python爬虫开发【第1篇】【Scrapy框架】
Scrapy 框架介绍 Scrapy是用纯Python实现一个为了爬取网站数据.提取结构性数据而编写的应用框架. Srapy框架,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以 ...
python高级—— 从趟过的坑中聊聊爬虫、反爬以及、反反爬，附送一套高级爬虫试题
前言: 时隔数月,我终于又更新博客了,然而,在这期间的粉丝数也就跟着我停更博客而涨停了,唉是的,我改了博客名,不知道为什么要改,就感觉现在这个名字看起来要洋气一点. 那么最近到底咋不更新博客了呢?说 ...

随机推荐

JVM 专题二十二：垃圾回收（六）垃圾回收器（三）
4. GC日志分析 4.1 日志分析通过阅读GC日志,我们可以了解Java虚拟机内存分配与回收策略. 内存分配与垃圾回收的参数列表-XX:+PrintGC:输出GC日志.类似-verbose: gc ...
java 面向对象（八）：面向对象的特征一：封装性
面向对象的特征一:封装与隐藏1.为什么要引入封装性?我们程序设计追求“高内聚,低耦合”.高内聚 :类的内部数据操作细节自己完成,不允许外部干涉:低耦合 :仅对外暴露少量的方法用于使用. 隐藏对象内部的 ...
Python Ethical Hacking - VULNERABILITY SCANNER(9)
Automatically Discovering Vulnerabilities Using the Vulnerability Scanner 1. Modify the run_scanner ...
The Prices
题目描述你要购买\(m\)种物品各一件,一共有\(n\)家商店,你到第\(i\)家商店的路费为\(d[i]\),在第家商店购买第\(j\)种物品的费用为\(c[i][j]\),求最小总费用. 输入格 ...
idea 自动生成try/catch代码块的快捷键
好像每个人的快捷键可能不同:我的是 Alt+Shift+Z 网上查的是 Ctrl+Alt+T 如果都不是可以点选工具栏生成try/catch(并可查看到自己的快捷键是什么):Code->Su ...
boot camp要求独立的fat分区
先在windows把u盘用diskpart clean掉分区表然后在苹果里面,给u盘重新分区,分区表不要选择GUID,选择主引导记录,格式选择fat,OK
ST表解决RMQ问题
RMQ问题: RMQ(Range Minimum/Maximum Query),区间最值查询.对于长度为n的数列A,回答若干询问RMQ(A,i,j)(i,j<=n),返回数列A中下标在i,j之间 ...
5.pandas新增数据列
有的时候,表格自带的数据根本没有办法满足我们,我们经常会新加一列数据或者对原有的数据进行修改还是接着上篇文章的数据进行操作直接赋值我想算一下每一天的温差 df.loc[:, 'wencha'] ...
mysql字符集 utf8 和utf8mb4 的区别
一.导读我们新建mysql数据库的时候,需要指定数据库的字符集,一般我们都是选择utf8这个字符集,但是还会又一个utf8mb4这个字符集,好像和utf8有联系,今天就来解析一下这两者的区别. 二.起 ...
http与https的简单比较
一.概念 1.HTTP:是互联网上应用最为广泛的一种网络协议,是一个客户端和服务器端请求和应答的标准(TCP),用于从WWW服务器传输超文本到本地浏览器的传输协议,它可以使浏览器更加高效,使网络传输减 ...

Python爬虫开发：反爬虫措施以及爬虫编写注意事项

反爬虫的几重措施

爬虫编写注意事项

Python爬虫开发：反爬虫措施以及爬虫编写注意事项的更多相关文章

随机推荐

热门专题