在Prefetcher中取消robots.txt的限制

　　Robots.txt是一种专门用于搜索引擎网络爬虫的文件，当构造一个网站时，如果作者希望该网站的内容被搜索引擎收录，就可以在网站中创建一个纯文本文件robots.txt，在这个文件中，声明该网站不想被robot访问的部分。这样，该网站的部分或全部内容就可以不被搜索引擎收录了，或者指定搜索引擎只收录指定的内容。

　　Heritrix在其说明文档中，表明它是一个完全遵守robots.txt协议的网络爬虫。这一点固然在宣传上起到了一定的作用。但是，在实际的网页采集过程中，这并不是一种最好的作法。因为大部分的网站并不会放置一个robots.txt文件以供搜索引擎读取，在互联网信息以几何级数增长的今天，网站总是在希望自己的内容不被人所利用的同时，又希望自己能够被更多的用户从搜索引擎上检索到。

　　不过幸好，robots.txt协议本身只是一种附加的协议，网站本身并不能了解究竟哪些Socket联接属于爬虫哪些属于正常的浏览器连接。所以，不遵守robos.txt协议成为了更多搜索引擎的首选。

　　使用过Heritrix的朋友就会发现这样一个问题，如果当一个网站没有放置robots.txt文件时，Heritrix总是要花上大量的时间试图去访问这样一个文件，甚至可能retry很多次。这无疑很大的降低了抓取效率。因此，为了提高抓取的效率，可以试着将对robots.txt的访问部分去除。

　　在Heritrix中，对robots.txt文件的处理是处于PreconditionEnforcer这个Processor中的。PreconditionEnforcer是一个Prefetcher，当处理时，总是需要考虑一下当前这个链接是否有什么先决条件要先被满足的，而对robots.txt的访问则正好是其中之一。在PreconditionEnforcer中，有一个private类型的方法，它的方法签名为：
private boolean considerRobotsPreconditions(CrawlURI curi)

　　PreconditionEnforcer文件的路径是：org.archive.crawler.prefetch.PreconditionEnforcer.java。

　　把PreconditionEnforcer.java中的private boolean considerRobotsPreconditions(CrawlURI curi){}修改为

     private boolean considerRobotsPreconditions(CrawlURI curi) {

         return false;

     }

　　或者把代码的实现部分注释掉，最后return语句改为return false;

　　该方法的含义为：在进行对参数所表示的链接的抓取前，看一下是否存在一个由robots.txt所决定的先决条件。很显然，如果对每个链接都有这样的处理。那么，很有可能导致整个抓取任务的失败。因此，需要对它进行调整。

　　这个方法返回true时的含义为需要考虑robots.txt文件，返回false时则表示不需要考虑robots.txt文件，可以继续将链接传递给后面的处理器。所以，最简单的修改办法就是将这个方法整个注释掉，只留下一个false的返回值。经过笔者的试验，这种方法完全可行，抓取的速度提高了至少一半以上！

在Prefetcher中取消robots.txt的限制的更多相关文章

Robots.txt - 禁止爬虫（转）
Robots.txt - 禁止爬虫 robots.txt用于禁止网络爬虫访问网站指定目录.robots.txt的格式采用面向行的语法:空行.注释行(以#打头).规则行.规则行的格式为:Field: v ...
robots.txt文件配置和使用方法详解
robots.txt文件,提起这个概念,可能不少站长还很陌生:什么是robots.txt文件?robots.txt文件有什么作用?如何配置robots.txt文件?如何正确使用robots.txt文件 ...
Robots.txt - 禁止爬虫
robots.txt用于禁止网络爬虫访问网站指定目录.robots.txt的格式采用面向行的语法:空行.注释行(以#打头).规则行.规则行的格式为:Field: value.常见的规则行:User-A ...
不可不知的robots.txt文件
robots.txt基本介绍 robots.txt是一个纯文本文件,在这个文件中网站管理者可以声明该网站中不想被robots访问的部分,或者指定搜索引擎只收录指定的内容. 当一个搜索机器人(有的叫搜索 ...
IIS设置文件 Robots.txt 禁止爬虫
robots.txt用于禁止网络爬虫访问网站指定目录.robots.txt的格式采用面向行的语法:空行.注释行(以#打头).规则行.规则行的格式为:Field: value.常见的规则行:User-A ...
[HTML] 如何使用robots.txt防止搜索引擎抓取页面
Robots.txt 文件对抓取网络的搜索引擎漫游器(称为漫游器)进行限制.这些漫游器是自动的,在它们访问网页前会查看是否存在限制其访问特定网页的 robots.txt 文件.如果你想保护网站上的某些 ...
Scrapy 爬虫日志中出现Forbidden by robots.txt
爬取汽车之家数据的时候,日志中一直没有任何报错,开始一直不知道什么原因导致的,后来细细阅读了下日志发现日志提示“Forbidden by robots.txt”,Scrapy 设置文件中如果把ROBO ...
Robots.txt在项目中的运用
在开发公司一个项目的过程中,有这样一个需求该网站上面有一个search功能,可以search该网站上的任何包括特定内容的网页现在有一个需求,就是针对几个特定的页面,我们希望网站上的search功能 ...
前端项目中的必要文件-【robots.txt】
放在src文件下:: robots.txt 告诉搜索引擎,该网站的被允许扒取得网页和静止扒取得 facicon.ico 网站地址栏的显示图 humans.txt ...

随机推荐

Python学习笔记6-异常捕获取
#--encoding:utf-8-- try: float('abc') except Exception,e: print e try: float(1.2) except Exception,e ...
linux学习之（三）-文件操作命令
创建一个空文件: touch 文件名例:touch tom 查看: 查看一个文件的内容命令cat 文件名例:cat tom 注:cat命令并不能显示文件的所有信息,但屏幕显示的行数是有 ...
#include <string.h>
1 _memccpy 2 _memicmp 3 _strlwr 4 _strrev 5 _strset 6 _strupr 7 memccpy 8 memchr 9 memcpy 10 memicmp ...
servlet上传文件报错（一）
1.详细报错例如以下: org.apache.commons.fileupload.FileUploadBase$IOFileUploadException: Processing of multip ...
HNU 12850 Garage
长为H的格子里面放n个长为h的格子最多会有n+1个空隙要使每一个空隙长度都小于h (H-h*n)/(n+1)<h n>(H/h-1)/2 #include<bits/stdc++ ...
JAVA装饰器模式
Java程序员们应该对java.io对不会陌生,因为java.io包采用了装饰器模式. 一.定义: Decorator装饰器,顾名思义,就是动态地给一个对象添加一些额外的职责,就好比为房子进行装修一样 ...
CRM后期修改实体，新增货币类型字段需要注意的问题
货币类型字段新增需要处理历史数据否则编辑会报错提示如果货币字段中存在值,则需要指定币种,请选择币种,然后重试编辑时货币字段不显示￥符号.新增正常.第一次编辑提示错误保存后再编辑也正常.不是JS ...
SQL初级阶段笔记
DataBase Management Stystem(数据库管理系统)简称:DBSM:虽然DBSM并不等于数据库,但行业内通常将DBSM称为数据库,所以一般来说数据库就指的是DBSM. 简单来讲DB ...
kafka 使用、介绍
kafka 是一个消息系统, 具体资料可以参考官网: BrokerKafka集群包含一个或多个服务器,这种服务器被称为broker Topic每条发布到Kafka集群的消息都有一个类别,这个类别被称 ...
Java中Overload和Override的区别
由于项目正式收工,闲来无事突然发现以前的文档上有一个问题介绍的不是很详细 override(重写,覆盖) 1.方法名.参数.返回值相同. 2.子类方法不能缩小父类方法的访问权限. 3.子类方法 ...

在Prefetcher中取消robots.txt的限制

在Prefetcher中取消robots.txt的限制的更多相关文章

随机推荐

热门专题