Heritrix源码分析(九) Heritrix的二次抓取以及如何让Heritrix抓取你不想抓取的URL

本博客属原创文章,欢迎转载！转载请务必注明出处:http://guoyunsky.iteye.com/blog/644396

本博客已迁移到本人独立博客: http://www.yun5u.com/

欢迎加入Heritrix群(QQ)：109148319,10447185 , Lucene/Solr群(QQ) : 118972724

前面说过Heritrix可以在某个抓取基础上(这里假设为A)继续抓取,因为Heritrix对每一个URL都会有相应的日志处理，同时还有checkpoint(备份中心)。所以只要通过A上的日志就可以完全按照该基础A继续抓取,不会重复抓取任何A抓过的任何东西,也会继续抓取A没有抓过的URL。做到这个有两种方法，一种是针对Web启动的,还有一种是针对我上次写的不通过Web启动的方式(启动方式见博客:Heritrix源码分析(五) 如何让Heritrix在Ecplise等IDE下编程启动).

1)下面介绍这两种启动方式,第一种，通过Web启动:

进入页面,选择：Jobs->Base on a recovery->然后再选择你要二次抓取的Job中的recover-log->然后再点击按钮Submit Job。之后回到Console页面，点击Start。之后就开始再你想要的基础上抓取了。你可以进入这个新建的抓取JOB下的logs目录，发现里面有个recover.gz大小跟你想要二次抓取JOB中的recover.gz大小一般大。以及你去查看该job下的order.xml中的<string name="recover-path"></string>中间的值发现就是你要二次抓取job下recover.gz的绝对目录

2)不通过Web方式启动:

这个相对简单,只要修改order.xml中<string name="recover-path">D:/recover.gz</string>,中间的值就是你想二次抓取的JOB中logs目录下recover.gz的绝对路径。

同时最好更新一下值为：
               <boolean name="checkpoint-copy-bdbje-logs">true</boolean>
               <boolean name="recover-retain-failures">false</boolean>
               <boolean name="recover-scope-includes">false</boolean>
               <boolean name="recover-scope-enqueues">false</boolean>

至于为什么要这样设置，请参考我关于order.xml介绍的博客：Heritrix源码分析(二) 配置文件order.xml介绍

同时可能你已经知道某些URL不需要抓取，比如从数据库导出来的，而这些URL你的Heritrix并没有处理过。所以这些外部的URL就无法通过以上两种办法导入Heritrix了。这里我写了个工具类，有两种方式，一种是你将URL都放在文件中，然后通过这个工具类从这个文件中读取这些URL(必须一行一个URL)，导入到Heritrix中。还有一种方法是针对数据库的，你只要提供相应的ResultSet以及该URL对应数据库的字段名，也可以导入Heritrix，下面贴上代码：

import java.io.BufferedReader;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.io.UnsupportedEncodingException;
import java.sql.Connection;
import java.sql.ResultSet;
import java.sql.SQLException;
import java.sql.Statement;
import org.archive.crawler.frontier.RecoveryJournal;
public class UrlToRecoverUtil {
/**
* 从文件中导入URl到recover.gz以便URL不再被抓取
*
* @param sourceFilePath URL来源文件
* @param sourceFileEncoding URL来源文件的编码
* @param recoverGzPath 要写到的recover.gz文件目录
* @param recoverGzFileName recover.gz文件名,可以为空
* @return
*/
public static boolean urlToRecoverUtilByFile(String sourceFilePath,String sourceFileEncoding,String recoverGzDir,String recoverGzFileName){
boolean result=false;
InputStream is=null;
InputStreamReader isr=null;
BufferedReader br=null;
File sourceFile=null;
String line=null;
RecoveryJournal recover = null;
try {
sourceFile=new File(sourceFilePath);
//recover.gz文件为空则采用默认名字
if(recoverGzFileName==null||recoverGzFileName.equals("")){
recoverGzFileName="recover.gz";
}
recover=new RecoveryJournal(recoverGzDir,recoverGzFileName);//构造recover.gz对象
//读取文件内容
is=new FileInputStream(sourceFile);
isr=new InputStreamReader(is,sourceFileEncoding);
br=new BufferedReader(isr);
//一行一行写入recover.gz文件
while((line=br.readLine().trim())!=null){
if(!line.equals("")){
recover.writeLine(RecoveryJournal.F_SUCCESS, line);
}
}
result=true;
} catch (FileNotFoundException e) {
e.printStackTrace();
} catch (UnsupportedEncodingException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
}finally{
try {
if(recover!=null){
recover.close();
}
if(br!=null){
br.close();
}
if(isr!=null){
isr.close();
}
if(is!=null){
is.close();
}
} catch (IOException e) {
e.printStackTrace();
}
}
return result;
}
/**
* 从ResultSet结果集中获取URL导入到recover.gz以便URl不再被抓取
*
* @param rs ResultSet结果集
* @param filedName ResultSet结果集中要获取URL对应的字段名
* @param recoverGzDir 要写到的recover.gz文件目录
* @param recoverGzFileName recover.gz文件名,可以为空
* @return
*/
public static boolean urlToRecoverUtilByResultSet(ResultSet rs,String filedName,String recoverGzDir,String recoverGzFileName){
boolean result=false;
String line=null;
RecoveryJournal recover = null;
try {
if(recoverGzFileName==null||recoverGzFileName.equals("")){
recoverGzFileName="recover.gz";
}
recover=new RecoveryJournal(recoverGzDir,recoverGzFileName);
if(rs!=null){
while(rs.next()){
line=rs.getString(filedName).trim();
if(!line.equals("")){
recover.writeLine(RecoveryJournal.F_SUCCESS, line);
}
}
result=true;
}
} catch (SQLException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
}finally{
try {
if(rs!=null){
rs.close();
}
if(recover!=null){
recover.close();
}
} catch (SQLException e) {
e.printStackTrace();
}
}
return result;
}
/**
* @param args
*/
public static void main(String[] args) {
/*
* 示例,从结果集中写入URL到recover.gz
*/
Connection con=null;
Statement stmt=null;
ResultSet rs=null;
String sql="SELECT CLASSIFY_INFO_URL FROM CLASSIFY_INFO";
boolean result=false;
try {
con=DatabaseUtil.getConnection_Mysql_CrawlServer_Local();//获取Connection
stmt=con.createStatement();
rs=stmt.executeQuery(sql);
result=urlToRecoverUtilByResultSet(rs,"CLASSIFY_INFO_URL","D:/HeritrixRecover/",null);
System.out.println("从结果集中导入URL到recover.gz文件:"+(result?"成功！":"失败！"));
} catch (SQLException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}finally{
DatabaseUtil.closeConnection(con, stmt, rs);//关闭Connection、Statement、ResultSet
}
}
}

这个工具类其实主要也只是生成recover.gz文件。如果你采用Web方式启动，你只要找到一个你抓取过的JOB，然后用这个生成的recover.gz目录覆盖你找到job下logs目录中的recover.gz即可。而如果你采用非Web启动就更简单了，只要将order.xml中<string name="recover-path">D:/recover.gz</string>中的值改成你生成recover.gz绝对路径即可！

Heritrix源码分析(九) Heritrix的二次抓取以及如何让Heritrix抓取你不想抓取的URL的更多相关文章

Heritrix源码分析(十四) 如何让Heritrix不间断的抓取（转）
欢迎加入Heritrix群(QQ):109148319,10447185 , Lucene/Solr群(QQ) : 118972724 本博客已迁移到本人独立博客: http://www.yun5u ...
Heritrix源码分析(十四)
近段时间在搞定Lucene的一些问题,所以Heritrix源码分析暂时告一段落.今天下午在群里有同学提到了Heritrix异常终止的问题以及让Heritrix不停的抓取(就是抓完一遍后载入种子继续抓取 ...
手机自动化测试：appium源码分析之bootstrap十二
手机自动化测试:appium源码分析之bootstrap十二 poptest是国内唯一一家培养测试开发工程师的培训机构,以学员能胜任自动化测试,性能测试,测试工具开发等工作为目标.如果对课程感兴趣 ...
HDFS源码分析之UnderReplicatedBlocks（二）
UnderReplicatedBlocks还提供了一个数据块迭代器BlockIterator,用于遍历其中的数据块.它是UnderReplicatedBlocks的内部类,有三个成员变量,如下: // ...
【集合框架】JDK1.8源码分析之LinkedHashMap（二）
一.前言前面我们已经分析了HashMap的源码,已经知道了HashMap可以用在哪种场合,如果这样一种情形,我们需要按照元素插入的顺序来访问元素,此时,LinkedHashMap就派上用场了,它保存 ...
【JUC】JDK1.8源码分析之AbstractQueuedSynchronizer（二）
一.前言在锁框架中,AbstractQueuedSynchronizer抽象类可以毫不夸张的说,占据着核心地位,它提供了一个基于FIFO队列,可以用于构建锁或者其他相关同步装置的基础框架.所以很有必 ...
【JUC】JDK1.8源码分析之ConcurrentSkipListMap（二）
一.前言最近在做项目的同时也在修复之前项目的一些Bug,所以忙得没有时间看源代码,今天都完成得差不多了,所以又开始源码分析之路,也着笔记录下ConcurrentSkipListMap的源码的分析过程 ...
【Zookeeper】源码分析之网络通信（二）
一.前言前面介绍了ServerCnxn,下面开始学习NIOServerCnxn. 二.NIOServerCnxn源码分析 2.1 类的继承关系 public class NIOServerCnxn ...
【Zookeeper】源码分析之服务器（二）
一.前言前面阐述了服务器的总体框架,下面来分析服务器的所有父类ZooKeeperServer. 二.ZooKeeperServer源码分析 2.1 类的继承关系 public class ZooKe ...

随机推荐

URAL 1183 Brackets Sequence（DP）
题目链接题意 : 给你一串由括号组成的串,让你添加最少的括号使该串匹配. 思路 : 黑书上的DP.dp[i][j] = min{dp[i+1][j-1] (sh[i] == sh[j]),dp[i] ...
（8）nehe教程2-多边形
参考自: http://www.yakergong.net/nehe/ 你的第一个多边形: 在第一个教程的基础上,我们添加了一个三角形和一个四边形.也许你认为这很简单,但你已经迈出了一大步,要知道任何 ...
eclipse创建python项目
http://jingyan.baidu.com/article/19192ad8173300e53f570757.html
C语言，一个彩票摇奖程序摇出22选5的中奖号码
摇奖机摇奖,无非就是利用它的随机性,让球从摇奖机中随机地掉出,就成了中奖号码.而C语言中也同样有个rand()函数可以产生随机数,利用这个rand()函数产生的随机数,同样可以代替从摇奖机中随机摇出的 ...
JavaPersistenceWithHibernate第二版笔记-第四章-Mapping persistent classes-003映射实体时的可选操作(<delimited-identifiers/>、PhysicalNamingStrategy、PhysicalNamingStrategyStandardImpl、、、)
一.自定义映射的表名 1. @Entity @Table(name = "USERS") public class User implements Serializable { / ...
Struts2笔记——通配符和动态方法调用
通配符映射 * 一个 Web应用可能有成百上千个 action 声明. 可以利用 struts提供的通配符映射机制把多个彼此相似的映射关系简化为一个映射关系 * 通配符映射规则 > 若 ...
sublime3 乱码问题
解决方法: 一.安装Package Control 二.按Ctrl+Shift+P打开命令行,输入Install Package,回车,然后继续输入ConvertToUTF8,回车 (把GB2312 ...
如何在Java客户端调用RESTful服务
在这个例子中,我们将看到如何使用java.net包实用工具,创建一个访问REST服务RESTful的客户端.当然这不是创建一个RESTful客户端最简单的方法,因为你必须自己读取服务器端的响应,以及J ...
284. Peeking Iterator
题目: Given an Iterator class interface with methods: next() and hasNext(), design and implement a Pee ...
linux中U盘umonut时出现“Device is busy”的解决方法
问题: #umount /dev/sda1 umount: /mnt/usb: device is busy 查找占用目录进程: #lsof |grep /mnt/usb bash 1971 root ...

Heritrix源码分析(九) Heritrix的二次抓取以及如何让Heritrix抓取你不想抓取的URL

Heritrix源码分析(九) Heritrix的二次抓取以及如何让Heritrix抓取你不想抓取的URL的更多相关文章

随机推荐

热门专题