robots.txt用法

G-Beniot 2024-10-10 05:07:06 原文

主要作用是告诉蜘蛛爬虫该网站下哪些内容能抓取，哪些内容不能抓取。虽然可以没有robots.txt这个文件，默认就抓取该网站的所有文件，对搜索引擎爬虫没有任何的影响，但是如果你想控制蜘蛛的检索间隔，你就必须用robots.txt来控制。

robots.txt不是一种规范，是约定俗成的，主流的搜索引擎都是遵循robots.txt的规则来索引页面，但是一些spam爬虫不会遵循，所以说robots.txt只能防君子，不能防小人，如果目录下有隐私的文件夹，建议设置密码或者登陆用户才能访问。

robots.txt基本用法

User-agent

User-agent是用来匹配爬虫的，每个爬虫都会有一个名字，如果你有安装awstats统计工具，你就能查看到爬虫的名字，比如百度的爬虫叫BaiDuSpider，Google的爬虫叫Googlebot，*表示所有爬虫。

Disallow

Disallow表示禁止爬虫访问的目录。Disallow: / 表示拦截整站。

Allow

Allow表示允许爬虫访问的目录。Allow: / 表示允许整站。

Sitemap

Sitemap用来指定sitemap的位置。

Crawl-delay

Crawl-delay用来告诉爬虫两次访问的间隔，单位是秒。爬虫如果爬得很勤，对动态网站来说，压力有点大，可能会导致服务器负载增高，用户访问变慢。

在计算Crawl-delay时间的时候，要稍微计算一下，ysearchblog上有篇日志，介绍得很清楚。

通配符|wildcard match

*：匹配任意多个字符

$：表示URL的结尾

注意|notice

URL区分大小写，所以 /abc/ 和 /Abc/ 表示不同的目录。
后面有没有斜杠也是不一样的，/private 和 /private/也表示两个不同的地址。

例子|examples

不管是Disallow，Allow还是Sitemap，每行只能写一条规则。Google本身就有一个robots.txt，值得大家参考。

拦截部分文件或目录

User-agent: *
Disallow: /cgi-bin/
Disallow: /aaa.html

允许爬虫访问所有的目录，有两种写法

User-agent: *
Disallow:

User-agent: *
Allow: /

通配符的使用，拦截.gif文件

User-agent: *
Disallow: /*.gif$

拦截带有?的文件

User-agent: *
Disallow: /*?

Sitemap例子

Sitemap: http://www.ezloo.com/sitemap.xml

robots.txt用法的更多相关文章

robots.txt的介绍和写作
目前很多网站管理者似乎对robots.txt并没有引起多大重视,甚至不知道这么一个文件的作用.本来应该保密的信息被爬虫抓取了,公布在公网上,本应该发布到公网的信息却迟迟不被搜索引擎收录.所以下面这篇文 ...
Robots.txt 协议详解及使用说明
一.Robots.txt协议 Robots协议,也称为爬虫协议.机器人协议等,其全称为“网络爬虫排除标准(Robots Exclusion Protocol)”.网站通过Robots协议告诉搜索引擎哪 ...
通过[蜘蛛协议]Robots.txt禁止搜索引擎收录的方法
什么是robots.txt文件? 搜索引擎通过一种程序robot(又称spider),自动访问互联网上的网页并获取网页信息. 您可以在您的网站中创建一个纯文本文件robots.txt,在这个文件中 ...
robots.txt文件配置和使用方法详解
robots.txt文件,提起这个概念,可能不少站长还很陌生:什么是robots.txt文件?robots.txt文件有什么作用?如何配置robots.txt文件?如何正确使用robots.txt文件 ...
转载robots.txt的学习
转载原地址: http://www.monring.com/seo/aspdotseo-robot.html 在国内,robots.txt文件,对于用户来说他是个可有可无的东西,也不会有人去看.但对于 ...
如何写robots.txt？
robin 发表在八月 2, 2006 在国内,网站管理者似乎对robots.txt并没有引起多大重视,应一些朋友之请求,今天想通过这篇文章来简单谈一下robots.txt的写作. robots.t ...
robots.txt网站爬虫文件设置
目录: 什么是robots.txt robots.txt使用误区 robots.txt使用技巧什么是robots.txt? robots.txt是搜索引擎中访问网站的时候要查看的第一个文件.Robo ...
robots.txt禁止搜索引擎收录
禁止搜索引擎收录的方法一．什么是robots.txt文件? 搜索引擎通过一种程序robot(又称spider),自动访问互联网上的网页并获取网页信息. 您可以在您的网站中创建一个纯文 ...
不可不知的robots.txt文件
robots.txt基本介绍 robots.txt是一个纯文本文件,在这个文件中网站管理者可以声明该网站中不想被robots访问的部分,或者指定搜索引擎只收录指定的内容. 当一个搜索机器人(有的叫搜索 ...

随机推荐

C#实现DNS解析服务
aaarticlea/png;base64,iVBORw0KGgoAAAANSUhEUgAAAnUAAAENCAIAAADmDAQyAAAat0lEQVR4nO3dbXRU9YHH8ftq2+1uT7
标签云 - jqcloud 用法
html <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF- ...
mac jdk设置
mac系统一般默认会安装jdk 1.6,路径为/System/Library/Java/JavaVirtualMachines/1.6.0.jdk,此Jdk为系统默认jdk; 但某些框架/应用要求jd ...
Java操作XML的工具类
import java.io.File; import java.io.FileOutputStream; import java.io.IOException; import java.io.Inp ...
Mac和Linux下测试端口是否存活一法[转载]
测试端口存活的最常用的方法是telnet $telnet 127.0.0.1 80 不过这个方法有一个不方便的地方:连接成功后会进入交互模式,需要按 ctrl + ] 和 q 才能退出. 后来,经过网 ...
android注解［Jake Wharton Butter Knife］
Introduction Annotate fields with @InjectView and a view ID for Butter Knife to find and automatical ...
5059 一起去打CS
5059 一起去打CS 时间限制: 1 s 空间限制: 32000 KB 题目等级 : 钻石 Diamond 题解查看运行结果题目描述 Description 早就和lyk约好了去 ...
OGG
Oracle Golden Gate软件是一种基于日志的结构化数据复制备份软件,它通过解析源数据库在线日志或归档日志获得数据的增量变化,再将这些变化应用到目标数据库,从而实现源数据库与目标数据库同步. ...
Table of Contents - Redis
Getting Started 安装配置环境 Redis 命令 Keys Strings Lists Hashs Sets Sorted Sets Transactions Connection Se ...
JavaScript--基本包装类型(13)
// JS为了便于操作基本类型,提供了3个特殊的引用类型:Boolean/Number和String; 一基本包装类型概述 // 实际上,每当读取一个基本类型值的时候,后台就会创建一个对应的基本包装 ...