识别User Agent屏蔽一些Web爬虫防采集

from:https://jamesqi.com/%E5%8D%9A%E5%AE%A2/%E8%AF%86%E5%88%ABUser_Agent%E5%B1%8F%E8%94%BD%E4%B8%80%E4%BA%9BWeb%E7%88%AC%E8%99%AB%E9%98%B2%E9%87%87%E9%9B%86

　　自从做网站以来，大量自动抓取我们内容的爬虫一直是个问题，防范采集是个长期任务，这篇是我5年前的博客文章：《Apache中设置屏蔽IP地址和URL网址来禁止采集》，另外，还可以识别User Agent来辨别和屏蔽一些采集者，在Apache中设置的代码例子如下：

RewriteCond %{HTTP_USER_AGENT} ^(.*)(DTS\sAgent|Creative\sAutoUpdate|HTTrack|YisouSpider|SemrushBot)(.*)$

RewriteRule .* - [F,L]

　　屏蔽User Agent为空的代码：

RewriteCond %{HTTP_USER_AGENT} ^$

RewriteRule .* - [F]

　　屏蔽Referer和User Agent都为空的代码：

RewriteCond %{HTTP_REFERER} ^$ [NC]

RewriteCond %{HTTP_USER_AGENT} ^$ [NC]

RewriteRule .* - [F]

　　下面把一些可以屏蔽的常见采集软件或者机器爬虫的User Agent的特征关键词列一下供参考：

User-Agent
DTS Agent
HttpClient
Owlin
Kazehakase
Creative AutoUpdate
HTTrack
YisouSpider
baiduboxapp
Python-urllib
python-requests
SemrushBot
SearchmetricsBot
MegaIndex
Scrapy
EMail Exractor
007ac9
ltx71

　　其它也可以考虑屏蔽的：

Mail.RU_Bot：http://go.mail.ru/help/robots
Feedly
ZumBot
Pcore-HTTP
Daum
your-server
Mobile/12A4345d
PhantomJS/2.1.1
archive.org_bot
AcooBrowser
Go-http-client
Jakarta Commons-HttpClient
Apache-HttpClient
BDCbot
ECCP
Nutch
cr4nk
MJ12bot
MOT-MPx220
Y!OASIS/TEST
libwww-perl

　　一般不要屏蔽的主流搜索引擎特征：

Google
Baidu
Yahoo
Slurp
yandex
YandexBot
MSN

　　一些常见浏览器或者通用代码也不要轻易屏蔽：

FireFox
Apple
PC
Chrome
Microsoft
Android
Mail
Windows
Mozilla
Safar
Macintosh

识别User Agent屏蔽一些Web爬虫防采集的更多相关文章

如何让你的scrapy爬虫不再被ban之二（利用第三方平台crawlera做scrapy爬虫防屏蔽）
我们在做scrapy爬虫的时候,爬虫经常被ban是常态.然而前面的文章如何让你的scrapy爬虫不再被ban,介绍了scrapy爬虫防屏蔽的各种策略组合.前面采用的是禁用cookies.动态设置use ...
Python爬虫防封杀方法集合
Python爬虫防封杀方法集合 mrlevo520 2016.09.01 14:20* 阅读 2263喜欢 38 Python 2.7 IDE Pycharm 5.0.3 前言 ...
第三百三十五节，web爬虫讲解2—Scrapy框架爬虫—豆瓣登录与利用打码接口实现自动识别验证码
第三百三十五节,web爬虫讲解2—Scrapy框架爬虫—豆瓣登录与利用打码接口实现自动识别验证码打码接口文件 # -*- coding: cp936 -*- import sys import os ...
第三百二十八节，web爬虫讲解2—urllib库爬虫—状态吗—异常处理—浏览器伪装技术、设置用户代理
第三百二十八节,web爬虫讲解2—urllib库爬虫—状态吗—异常处理—浏览器伪装技术.设置用户代理如果爬虫没有异常处理,那么爬行中一旦出现错误,程序将崩溃停止工作,有异常处理即使出现错误也能继续执 ...
第三百二十二节，web爬虫，requests请求
第三百二十二节,web爬虫,requests请求 requests请求,就是用yhthon的requests模块模拟浏览器请求,返回html源码模拟浏览器请求有两种,一种是不需要用户登录或者验证的请 ...
Web爬虫入门
1.0示例学习:Web爬虫 public class WebCrawler { // 种子url private static String url = "http://www.cnblog ...
Jenkins 2.16.3默认没有Launch agent via Java Web Start，如何配置使用
问题:Jenkins 2.16.3默认没有Launch agent via Java Web Start,如下图所示,而这种启动方式在Windows上是最方便的. 如何设置才能让出来呢? 打开&quo ...
Jenkins的配置从节点中默认没有Launch agent via Java Web Start选项问题
Jenkins的配置从节点中默认没有Launch agent via Java Web Start,如下图所示,而这种启动方式在Windows上是最方便的. 如何设置才能让出来呢? 1:打开" ...
Jenkins的配置从节点中默认没有Launch agent via Java Web Start，该如何配置使用
Jenkins的配置从节点中默认没有Launch agent via Java Web Start,如下图所示,而这种启动方式在Windows上是最方便的. 如何设置才能让出来呢? 1:打开" ...

随机推荐

mysql_commit() COMMIT ROLLBACK 提交回滚连接释放
MySQL :: MySQL 8.0 Reference Manual :: 28.7.7.6 mysql_commit() https://dev.mysql.com/doc/refman/8.0/ ...
flask源码剖析--请求流程
想了解这篇里面的内容,请先去了解我另外一篇博客Flask上下文在了解flask之前,我们需要了解两个小知识点偏函数 import functools def func(a1,a2): print( ...
stark - filter、pop、总结
一.filter 效果图知识点 1.配置得显示Filter,不配置就不显示了 list_filter = ['title','publish', 'authors'] 2.前端显示后端返回字典 ...
Flask wtform组件
Wtforms简介 WTForms是一个支持多个web框架的form组件主要能够帮助我们生成html标签对数据进行验证安装 pip install wtforms Wtforms的使用这里借助 ...
在一台server上部署多个Tomcat
版权声明: https://blog.csdn.net/u011518709/article/details/27181665 在一台server上配置多个Tomcat的方法: 这几天因为在研究OGS ...
ViewPager添加小圆点
ViewPager添加小圆点很简单,但是如果是网络图片可能就不太好做了,所以我这里给出一种方法,当然你也可以用其他的 1.主界面xml <?xml version="1.0" ...
表单（上）EasyUI Form 表单、EasyUI Validatebox 验证框、EasyUI Combobox 组合框、EasyUI Combo 组合、EasyUI Combotree 组合树
EasyUI Form 表单通过 $.fn.form.defaults 重写默认的 defaults. 表单(form)提供多种方法来执行带有表单字段的动作,比如 ajax 提交.加载.清除,等等. ...
PAT 1043 Is It a Binary Search Tree[二叉树][难]
1043 Is It a Binary Search Tree(25 分) A Binary Search Tree (BST) is recursively defined as a binary ...
HTML&CSS&Javascript脑图
今天看了极客学院的CSS3部分,加上前几天看过的HTML5部分,现在对HTML和CSS的基础有了系统的认识,正好发现这张图,简直Perfect! 感谢脑图的制作人,虽然不知道是谁,但能把HTML.CS ...
addslashes — 使用反斜线引用字符串
返回字符串,该字符串为了数据库查询语句等的需要在某些字符前加上了反斜线.这些字符是单引号(').双引号(").反斜线(\)与 NUL( NULL 字符). 一个使用 addslashes() ...

识别User Agent屏蔽一些Web爬虫防采集

识别User Agent屏蔽一些Web爬虫防采集

识别User Agent屏蔽一些Web爬虫防采集的更多相关文章

随机推荐

热门专题