要成为一个网络爬虫或搜索引擎(在这里,共同蜘蛛)它不会陌生,在搜索引擎爬虫的第一个文件或者访问该网站上浏览robots.txt该。robots.txt文件讲述了蜘蛛server哪些文件要观看正在。

当一个搜索蜘蛛訪问一个网站时,它会首先检查该网站根文件夹下是否存在robots.txt,假设存在,搜索机器人就会依照该文件里的内容来确定訪问的范围;假设该文件不存在。全部的搜索蜘蛛将可以訪问网站上全部没有被口令保护的页面。

那我们应该如何使用robots.txt呢?

第一: robots.txt必须放置在一个网站的根文件夹下。并且文件名称必须所有小写。

         第二:必须遵循下面语法:

                             最简单的 robots.txt 文件使用三条规则:

                             :User-Agent: 适用下列规则的漫游器(比方百度(Baiduspider)、Google(Googlebot))

                             :Disallow: 要拦截的网页(能够和)

                             :Allow: 同意语法(Disallow结合起来使用)

接下来让我们看下实际应用。

一般站点中不须要蜘蛛抓取的文件有:后台管理文件、程序文件、附件、图片、数据库文件、模板文件、样式表文件、编码文件、脚本文件我们能够写下面robots.txt内容:

User-agent: *

       Disallow: /admin/ 后台管理文件

       Disallow: /require/ 程序文件

       Disallow: /attachment/ 附件

       Disallow: /images/ 图片

       Disallow: /data/ 数据库文件

       Disallow: /template/ 模板文件

       Disallow: /css/ 样式表文件

       Disallow: /lang/ 编码文件

       Disallow: /script/ 脚本文件

假设你想同意全部搜索引擎訪问站点的全部部分

1、你能够建立一个空白的文本文档。命名为robots.txt

2、User-agent: *

       Disallow:

3、User-agent: *

      Allow: /

假设你想禁止全部搜索引擎訪问站点的全部部分。把上面2中改成    Disallow: /    就能够了

假设你想禁止百度    User-agent: Baiduspider

假设你想禁止除Google外的一切搜索引擎

User-agent: Googlebot

       Disallow:

       User-agent: *

       Disallow: /

注:事实上并不是全部的爬昆虫将遵循robots.txt合约,因为我们能够制造恶意爬行动物。哈哈

版权声明:本文博主原创文章。博客,未经同意不得转载。

离robots.txt启动网络爬虫之旅的更多相关文章

  1. Python网络爬虫与信息提取笔记

    直接复制粘贴笔记发现有问题 文档下载地址//download.csdn.net/download/hide_on_rush/12266493 掌握定向网络数据爬取和网页解析的基本能力常用的 Pytho ...

  2. 第三次作业-Python网络爬虫与信息提取

    1.注册中国大学MOOC 2.选择北京理工大学嵩天老师的<Python网络爬虫与信息提取>MOOC课程 3.学习完成第0周至第4周的课程内容,并完成各周作业 过程. 5.写一篇不少于100 ...

  3. 网络爬虫与web之间的访问授权协议——Robots

    网站的管理者们通常会有这样一种心态:一方面期待百度.Google这样的搜索引擎来抓取网站的内容,另一方面又很厌恶其他来路不明的网络爬虫抓取自己的信息.正是因为这样,才有“好爬虫”.“坏爬虫”这样的说法 ...

  4. Scrapy 爬虫日志中出现Forbidden by robots.txt

    爬取汽车之家数据的时候,日志中一直没有任何报错,开始一直不知道什么原因导致的,后来细细阅读了下日志发现日志提示“Forbidden by robots.txt”,Scrapy 设置文件中如果把ROBO ...

  5. Python网络爬虫与信息提取(一)

    学习 北京理工大学 嵩天 课程笔记 课程体系结构: 1.Requests框架:自动爬取HTML页面与自动网络请求提交 2.robots.txt:网络爬虫排除标准 3.BeautifulSoup框架:解 ...

  6. Python3爬虫(二)网络爬虫的尺寸与约束

    Infi-chu: http://www.cnblogs.com/Infi-chu/ 一.网络爬虫的尺寸: 1.小规模,数据量小,爬取速度不敏感,Requests库,爬取网页 2.中规模,数据规模较大 ...

  7. <HTTP权威指南>记录 ---- 网络爬虫

    网络爬虫 网络爬虫(web crawler)能够在无需人类干预的情况下自动进行一系列Web事务处理的软件程序.很多爬虫会从一个Web站点逛到另一个Web站点,获取内容,跟踪超链,并对它们找到的数据进行 ...

  8. 假期学习【六】Python网络爬虫2020.2.4

    今天通过Python网络爬虫视频复习了一下以前初学的网络爬虫,了解了网络爬虫的相关规范. 案例:京东的Robots协议 https://www.jd.com/robots.txt 说明可以爬虫的范围 ...

  9. SEO优化-robots.txt解读

    一.什么是robots.txt robots.txt 文件由一条或多条规则组成.每条规则可禁止(或允许)特定抓取工具抓取相应网站中的指定文件路径. 通俗一点的说法就是:告诉爬虫,我这个网站,你哪些能看 ...

随机推荐

  1. C#新DataColumn类Type生成的方法类型参数

    DataColumn有的需要等级Type构造类型的参数,如以下: // // 摘要: // 使用指定列名称和数据类型初始化 System.Data.DataColumn 类的新实例. // // 參数 ...

  2. DevExpress控件使用之RichEditControl的使用

    原文:DevExpress控件使用之RichEditControl的使用 做Winform的,我们一般都知道,传统.NET界面有一个RichTextBox控件,这个是一个富文本控件,可以存储图片文字等 ...

  3. 【原创】leetCodeOj --- Candy 解题报告

    题目地址: https://leetcode.com/problems/candy/ 题目内容: Candy Total Accepted: 43150 Total Submissions: 2038 ...

  4. 询url包括字符串参数(js高度注意事项)

    以防万一  url="http://write.blog.csdn.net/postedit? id=5&search=ok" function getArgs() { v ...

  5. 关于VCL的编写 (一) 如何编写自己的VCL控件

    如何编写自己的VCL控件 用过Delphi的朋友们,大概对Delphi的最喜欢Delphi的不是他的强类型的pascal语法,而是强大的VCL控件,本人就是一位VCL控件的爱好者. VCL控件的开源, ...

  6. 阿里游戏大数据sesson2_RF&amp;GBRT(上)

    ----------一个小的游戏体验,对于不太熟悉Xlab RF和GBRT同学们都叫参考,不喜勿喷,大神绕道,米姆达. . .. .---------- 6月初的时候LR 做到4.9后一直上不去,看群 ...

  7. HDU 4777 Rabbit Kingdom(树状数组)

    HDU 4777 Rabbit Kingdom 题目链接 题意:给定一些序列.每次询问一个区间,求出这个区间和其它数字都互质的数的个数 #include <cstdio> #include ...

  8. CopyOnWriteArrayList源代码阅读器

    java.util.concurrent在相应的并发集合的包中定义的通用集合类,为了有效地处理并发场景.间CopyOnWriteArrayList它是合适ArrayList.顾名思义CopyOnWri ...

  9. [Servlet3.0新功能]注释替代配置文件

    作者信息 作者名称:金云龙 个人网站:http://www.longestory.com 个人公众帐号:搜索"longestory"或"龙哥有话说" 须要注意的 ...

  10. VC档(夹)文件夹路径的经营方针和代码

    ***********************************************声明*************************************************** ...