如何通过 User-Agent 识别百度蜘蛛

如果有大量的百度蜘蛛抓取网站就需要注意了：有可能是其他爬虫伪造百度蜘蛛恶意抓取网站。

如果遇到这种情况，这时候就需要查看日志来确定是不是真正的百度蜘蛛（baidu spider）。搜索引擎蜘蛛、用户访问、爬虫等访问都会留下 User-Agent。

我们可以通过 User-Agent 大概判断是不是百度蜘蛛（baidu spider）。

百度 User-Agent 主要有以下几个：

百度 PC 蜘蛛 User-Agent 是：

Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html）
百度移动蜘蛛 User-Agent 是：

Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
还有一个是 Baiduspider-render/2.0 User-Agent 是：

Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)

这个 Baiduspider-render/2.0 主要是为了给搜索用户更好的体验、对站点实现更好地索引和呈现，百度搜索需要访问网站的 CSS、Javascript 和图片信息，以便更精准地理解页面内容，实现搜索结果最优排名，百度搜索会全面启用最新 User-Agent 来访问站点的上述资源。

Baiduspider-render/2.0 不同于 Baiduspider/2.0，Baiduspider-render/2.0 可以获取 Javascript 内容，实现动态渲染。

还有其他的百度产品的 User-Agent:

百度图片搜索 User-Agent:

Baiduspider-image+(+http://www.baidu.com/search/spider.htm)
百度视频搜索 User-Agent:

Baiduspider-video
百度新闻搜索 User-Agent:

Baiduspider-news
百度搜藏 User-Agent:

Baiduspider-favo
百度联盟 User-Agent:

Mozilla/5.0 (compatible; Baiduspider-cpro; +http://www.baidu.com/search/spider.html)
商务搜索 User-Agent:

Baiduspider-ads

以上总结了百度所有产品的 User-Agent，但是仅仅通过 User-Agent 识别百度蜘蛛（baidu spider）是完全不够的，因为 User-Agent 完全可以被伪造。

如何伪造 User-Agent 与如何通过 IP 识别百度蜘蛛（baidu spider）我将在以后的文章中详述。

参考资料：

1、爬虫识别 - 百度蜘蛛

2、站长平台 - 常见问题解答

如何通过 User-Agent 识别百度蜘蛛的更多相关文章

PHP 小方法之仿百度蜘蛛采集
if(!function_exists('_GetContent')){ function _GetContent( $url ){ $ch = curl_init(); $ip = '220.181 ...
常见的百度蜘蛛IP
根据不同的IP我们可以分析网站是个怎样的状态, 以下常见的百度蜘蛛IP: 123.125.68.*这个蜘蛛经常来,别的来的少,表示网站可能要进入沙盒了,或被者降权. 220.181.68.*每天这个I ...
如何判断来访的IP是否是百度蜘蛛ip？
网站日志是可以真实体现网站的状态,通过网站日志我们可以清楚的看到网站每天有多少访客,每天有多少蜘蛛来抓取网站的数据,哪些数据被蜘蛛抓取了.哪些页面在请求数据的时候发现了错误.这些都是可以通过状态码来进 ...
百度蜘蛛IP段分析
大家进行网站日志分析的时候,常见到很多不同IP段的百度蜘蛛,为了方便大家更好的进行日志分析,下面列举了百度不同IP段常见蜘蛛的一些详情情况,及所谓的降权蜘蛛,沙盒蜘蛛,高权重蜘蛛等等下面的百度蜘蛛I ...
百度蜘蛛IP地址到底代表什么含义?
百度蜘蛛IP地址到底代表什么含义,是不是不同的ip地址所代表的含义不一样呢?对权重和抓取是否有影响?哪些是无效的蜘蛛,哪些是站长工具的蜘蛛,那些又是百度自己真正的蜘蛛?百度蜘蛛,是百度搜索引擎的一个自 ...
百度蜘蛛ip段代表的不同含义
有时候我们在分析百度蜘蛛的时候,会发现很多的ip,这些个ip地址,根据后面的参数可以发现都是百度的.刚学习SEO不久的同学肯定要问:这些ip地址到底代表什么含义,是不是不同的ip地址所代表的含义不一样 ...
【程序员的吃鸡大法】利用OCR文字识别+百度算法搜索，玩转冲顶大会、百万英雄、芝士超人等答题赢奖金游戏
[先上一张效果图]: 一.原理: 其实原理很简单: 1.手机投屏到电脑: 2.截取投屏画面的题目部分,进行识别,得到题目和三个答案: 3.将答案按照一定的算法,进行搜索,得出推荐答案: 4.添加了一些 ...
利用OCR文字识别+百度算法搜索，玩转冲顶大会、百万英雄、芝士超人等答题赢奖金游戏
[先上一张效果图]: 一.原理: 其实原理很简单: 1.手机投屏到电脑: 2.截取投屏画面的题目部分,进行识别,得到题目和三个答案: 3.将答案按照一定的算法,进行搜索,得出推荐答案: 4.添加了一些 ...
根据网站运行日志猜测的百度蜘蛛ip
da大部分文章都是吵来吵去,不准确所以就不参考那些沙雕的文章了,直接自己统计一个 123.125.71.117 123.125.71.58 220.181.108.115 220.181.108.1 ...

随机推荐

Swarm+Docker+Portainer(集群，图形化)
参考文章 https://blog.csdn.net/u011781521/article/details/80469804 https://blog.csdn.net/u011781521/arti ...
SQL注入之猫舍之sqlmap的使用
先说一下最常用的基础指令 -u 指定注入点(一般为url栏的网址) --dbs 跑库名 --tables 跑表名 --columns 跑字段名 --dump 枚举数据(高危指令,容易进去) -D 库名 ...
模块化开发 | es6模块暴露与引入
CommonJS模块开发 CommonJS定义每个文件就一个模块,有自己的作用域.在一个文件里面定义的变量.函数.类,都是私有的,对其他文件不可见. 私有作用域不会污染全局作用域. 模块可加载多次, ...
NOIP模拟92&93(多校26&27)
前言由于太菜了,多校26 只改出来了 T1 ,于是直接并在一起写啦~~~. T0 NOIP 2018 解题思路第一次考场上面写三分,然而我并不知道三分无法处理不是严格单峰的情况,但凡有一个平台都不 ...
大一C语言学习笔记（1）---编译顺序问题；不同数据类型赋值，运算问题；算数运算符易错点（以解一元二次方程为例）
废话少说,上代码: #include<stdio.h> #include<math.h> int main()//解一元二次方程 { int a,b,c; double too ...
[第二章]c++学习笔记6（复制构造函数在各个编译器中的表现）
visual studio结果 dev c++结果两者的输出有所不同原因:dev c++编译对这个过程进行了优化,因为直接return对象给a,为节省时间所以不生成临时对象,所以结果为10. 注: ...
C#中OnLoad事件和Form1_Load事件的区别
在学习<GDI+高级编程>第二章的过程中遇到一个疑问,就是为何有的代码用的是覆写一个OnLoad事件,而平日里我用的一般是Form1_Load事件,这两个函数很相近,但是具体有什么关系呢? ...
【华为昇腾】序言：从昇腾AI软硬件平台聊起
2021年是很值得纪念的一年,从上半年开始跟随导师编写有关华为昇腾软件栈CANN的教材,一年的时间反复迭代终于快要出版了. 这一系列博客可以视作我从编者的角度,重新梳理的全书思路.明年入职商汤之后要 ...
【GitHub】本地代码上传
本地代码上传GitHub 2019-11-18 20:03:45 by冲冲 1.注册GitHub https://github.com/ 2.安装Git工具 https://git-for-win ...
SpringCloud微服务实战——搭建企业级开发框架（二十三）：Gateway+OAuth2+JWT实现微服务统一认证授权
OAuth2是一个关于授权的开放标准,核心思路是通过各类认证手段(具体什么手段OAuth2不关心)认证用户身份,并颁发token(令牌),使得第三方应用可以使用该token(令牌)在限定时间.限定 ...

如何通过 User-Agent 识别百度蜘蛛

如何通过 User-Agent 识别百度蜘蛛的更多相关文章

随机推荐

热门专题