如何使用robots禁止各大搜索引擎爬虫爬取网站

ps：由于公司网站配置的测试环境被百度爬虫抓取，干扰了线上正常环境的使用，刚好看到每次搜索淘宝时，都会有一句由于robots.txt文件存在限制指令无法提供内容描述，于是便去学习了一波

　　　1.原来一般来说搜索引擎爬取网站时都会，先读取下robots.txt文件，并依照里面所设定的规则去爬取网站（当然是指没用登录限制的页面）

　　　 2.下面我们就来说一说如何设置robots.txt文件

　　　　1）.robots.txt文件必须是放在文件根目录上：
　　　　　　例如：

　　　　　　　　├─admin

　　　　　　　　│ └─templates

　　　　　　　　│ header.tpl.php

　　　　　　　　│ task_add.tpl.php

　　　　　　　　│ └─robots.txt

　　　　 2 ) .首先常用的命令为

　　　　　　　　User-agent : 可以具体制定User-agent适用，即搜索引擎的名字，如果为 * 的话则为通配

　　　　　　　　Disallow : 可以设定档案或文件夹，不允许被爬虫爬取，且为 / 时禁止爬取整站，也可以指定文件路径，不可爬取

　　　　　　　　Crawl-delay: 延时爬取，防止爬虫短时间内爬取网站过快导致网站崩溃，则可以设置该延时

　　　　　　　　Allow : 允许爬取指定页面，为 / 时爬取整站

　　　　3）搜索引擎别称

　　　　　　　　Googlebot 谷歌

　　　　　　　　Baiduspider 百度

　　　　　　　　等等

　　类似我们测试环境就设置了

　　　　User-agent : / 所有搜索引擎

　　　　Disallow : / 禁止整站

如何使用robots禁止各大搜索引擎爬虫爬取网站的更多相关文章

Java爬虫爬取网站电影下载链接
之前有看过一段时间爬虫,了解了爬虫的原理,以及一些实现的方法,本项目完成于半年前,一直放在那里,现在和大家分享出来. 网络爬虫简单的原理就是把程序想象成为一个小虫子,一旦进去了一个大门,这个小虫子就像 ...
webmagic 二次开发爬虫爬取网站图片
webmagic的是一个无须配置.便于二次开发的爬虫框架,它提供简单灵活的API,只需少量代码即可实现一个爬虫. webmagic介绍编写一个简单的爬虫 webmagic的使用文档:http://w ...
手把手教你用Node.js爬虫爬取网站数据
个人网站 https://iiter.cn 程序员导航站开业啦,欢迎各位观众姥爷赏脸参观,如有意见或建议希望能够不吝赐教! 开始之前请先确保自己安装了Node.js环境,还没有安装的的童鞋请自行百度 ...
google搜索引擎爬虫爬网站原理
google搜索引擎爬虫爬网站原理一.总结一句话总结:从几个大站开始,然后开始爬,根据页面中的link,不断爬从几个大站开始,然后开始爬,根据页面中的link,不断加深爬 1.搜索引擎和数据库检 ...
使用Python爬虫爬取网络美女图片
代码地址如下:http://www.demodashi.com/demo/13500.html 准备工作安装python3.6 略安装requests库(用于请求静态页面) pip install ...
python3爬虫爬取网页思路及常见问题（原创）
学习爬虫有一段时间了,对遇到的一些问题进行一下总结. 爬虫流程可大致分为:请求网页(request),获取响应(response),解析(parse),保存(save). 下面分别说下这几个过程中可以 ...
python爬虫—爬取英文名以及正则表达式的介绍
python爬虫—爬取英文名以及正则表达式的介绍爬取英文名: 一. 爬虫模块详细设计 (1)整体思路对于本次爬取英文名数据的爬虫实现,我的思路是先将A-Z所有英文名的连接爬取出来,保存在一个cs ...
MATLAB爬虫爬取股票数据
近年来,大数据盛行,有关爬虫的教程层次不穷.那么,爬虫到底是什么呢? 什么是爬虫? 百度百科是这样定义的: 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种 ...
python爬虫——爬取网页数据和解析数据
1.网络爬虫的基本概念网络爬虫(又称网络蜘蛛,机器人),就是模拟客户端发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序.只要浏览器能够做的事情,原则上,爬虫都能够做到. 2 ...

随机推荐

区块链相关在线加解密工具（非对称加密/hash）
https://cse.buffalo.edu/blockchain/tools.html https://cse.buffalo.edu/blockchain/encryption.html 由纽约 ...
C语言字符编码处理
一.字符编码识别 1.简介 uchardet是一个开源的用于文本编码检测的C语言库,其功能模块是用C++实现的,通过一定数量的字符样本独立的分析出文本的编码,当前已经支持UTF-8/GB13080/B ...
vue项目一行js代码搞定点击图片放大缩小
一行js代码搞定xue项目需要点击图片放大缩小,其实主要用的是用到了vue:class的动态切换,内容比较简单.一开始我把维护的需求想得太复杂了,和测试小姐姐聊了一下才反应过来. 两个月不到跟了四个项 ...
iOS's GCD Note
[iOS's GCD Note] 1.默认有四种全局concureent queue,如下: 通过以下函数来引用: 2.官方文档上并发队列有3种,实际上main就是serial. 1)serial,用 ...
wCF 问题收集页
1.设置最大序列化集合元素个数 http://msdn.microsoft.com/zh-cn/library/system.runtime.serialization.datacontractser ...
Babel 是干什么的
首先babel是干什么的?Babel是一个广泛使用的转码器,可以将ES6代码转为ES5代码,从而在现有环境执行. babel就是为了支持原有的旧的环境. 一.配置文件.babelrc Babel的配置 ...
REQUEST的TRACE文件
--REQUEST的TRACE文件 SELECT 'Trace Name: ' || DEST.VALUE || '/' || LOWER (DBNM.VAL ...
咏南中间件当作WEB SERVER使用方法
咏南中间件当作WEB SERVER使用方法 1)开启咏南中间件 2)浏览器打开http://localhost:5566/web?page=echo.html
task3:词频统计
相关的类: java.util.regex.Pattern static Pattern compile(String regex) //编译模式 static Pattern compile(Str ...
利用SQL表生成按日期序列的唯一ID
1. 创建一个表,用于存现在最大的ID SELECT [ID],[PreFix],[Code] FROM [DocumentNO] 2. 增加SP,利用锁表,生成相应的ID Create PROCED ...

如何使用robots禁止各大搜索引擎爬虫爬取网站

如何使用robots禁止各大搜索引擎爬虫爬取网站的更多相关文章

随机推荐

热门专题