深入学习Heritrix---解析CrawlController（转）

当我们以Web UI方式使用Heritrix时,点击任务开始(start)按钮时,Heritrix就开始了它的爬取工作.但它的内部

执行流程是怎样的呢?别急,下面将慢慢道来.

(一)CrawlJobHandler

当点击任务开始(start)按钮时,将执行它的startCrawler()方法:

if(sAction.equalsIgnoreCase("start"))
{
// Tell handler to start crawl job
handler.startCrawler();

}

再来看看startCrawler()方法的执行:

public class CrawlJobHandler implements CrawlStatusListener {

public void startCrawler() {

        running = true;

        if (pendingCrawlJobs.size() > 0 && isCrawling() == false) {

            // Ok, can just start the next job

            startNextJob();

        }

    }

protected final void startNextJob() {

        synchronized (this) {

            if(startingNextJob != null) {

                try {

                    startingNextJob.join();

                } catch (InterruptedException e) {

                    e.printStackTrace();

                    return;

                }

            }

            startingNextJob = new Thread(new Runnable() {

                public void run() {

                    startNextJobInternal();

                }

            }, "StartNextJob");

            //当前任务线程开始执行

            startingNextJob.start();

        }

    }

 protected void startNextJobInternal() {

        if (pendingCrawlJobs.size() == 0 || isCrawling()) {

            // No job ready or already crawling.

            return;

        }

    //从待处理的任务列表取出一个任务

        this.currentJob = (CrawlJob)pendingCrawlJobs.first();

        assert pendingCrawlJobs.contains(currentJob) :

            "pendingCrawlJobs is in an illegal state";

    //从待处理列表中删除

        pendingCrawlJobs.remove(currentJob);

        try {

            this.currentJob.setupForCrawlStart();

            // This is ugly but needed so I can clear the currentJob

            // reference in the crawlEnding and update the list of completed

            // jobs.  Also, crawlEnded can startup next job.

            this.currentJob.getController().addCrawlStatusListener(this);

            // now, actually start

        //控制器真正开始执行的地方

            this.currentJob.getController().requestCrawlStart();

        } catch (InitializationException e) {

            loadJob(getStateJobFile(this.currentJob.getDirectory()));

            this.currentJob = null;

            startNextJobInternal(); // Load the next job if there is one.

        }

    }

}

由以上代码不难发现整个流程如下:

可以看出,最终将启动CrawlController的requestCrawlStart()方法.

(二)CrawlController

该类是一次抓取任务中的核心组件。它将决定整个抓取任务的开始和结束.

先看看它的源代码:

package org.archive.crawler.framework;

public class CrawlController implements Serializable, Reporter {

     

    // key subcomponents which define and implement a crawl in progress

    private transient CrawlOrder order;

    private transient CrawlScope scope;

    private transient ProcessorChainList processorChains;

    

    private transient Frontier frontier;

    private transient ToePool toePool;

    

    private transient ServerCache serverCache;

    

    // This gets passed into the initialize method.

    private transient SettingsHandler settingsHandler;

     

}

CrawlOrder：它保存了对该次抓取任务中order.xml的属性配置。
CrawlScope：决定当前抓取范围的一个组件。
ProcessorChainList：从名称上可知，其表示处理器链。
Frontier：它是一个URL的处理器，决定下一个要被处理的URL是什么。
ToePool：它表示一个线程池，管理了所有该抓取任务所创建的子线程。
ServerCache：它表示一个缓冲池，保存了所有在当前任务中，抓取过的Host名称和Server名称。

在构造 CrawlController实例,需要先做以下工作:

(1)首先构造一个XMLSettingsHandler对象，将order.xml内的属性信息装入，并调用它的initialize方法进行初始化。

(2)调用CrawlController构造函数，构造一个CrawlController实例

(3)调用CrawlController的initilize（SettingsHandler）方法，初始化CrawlController实例。其中，传入的参数就是

在第一步里构造的XMLSettingsHandler实例。

(4 )当上述3步完成后，CrawlController就具备了运行的条件。此时，只需调用它的requestCrawlStart（）方法，就

可以启动线程池和Frontier，然后开始不断的抓取网页。

先来看看initilize（SettingsHandler）方法：

public void initialize(SettingsHandler sH)

    throws InitializationException {

        sendCrawlStateChangeEvent(PREPARING, CrawlJob.STATUS_PREPARING);

        this.singleThreadLock = new ReentrantLock();

        this.settingsHandler = sH;

    //从XMLSettingsHandler中取出Order

        this.order = settingsHandler.getOrder();

        this.order.setController(this);

        this.bigmaps = new Hashtable<String,CachedBdbMap<?,?>>();

        sExit = "";

        this.manifest = new StringBuffer();

        String onFailMessage = "";

        try {

            onFailMessage = "You must set the User-Agent and From HTTP" +

            " header values to acceptable strings. /n" +

            " User-Agent: [software-name](+[info-url])[misc]/n" +

            " From: [email-address]/n";

        //检查了用户设定的UserAgent等信息，看是否符合格式

            order.checkUserAgentAndFrom();

            onFailMessage = "Unable to setup disk";

            if (disk == null) {

                setupDisk(); //设定了开始抓取后保存文件信息的目录结构

            }

            onFailMessage = "Unable to create log file(s)";

            //初始化了日志信息的记录工具

            setupLogs();

            onFailMessage = "Unable to test/run checkpoint recover";

            this.checkpointRecover = getCheckpointRecover();

            if (this.checkpointRecover == null) {

                this.checkpointer =

                    new Checkpointer(this, this.checkpointsDisk);

            } else {

                setupCheckpointRecover();

            }

            

            onFailMessage = "Unable to setup bdb environment.";

        //初始化使用Berkley DB的一些工具

            setupBdb();

            

            onFailMessage = "Unable to setup statistics";

            setupStatTracking();

            

            onFailMessage = "Unable to setup crawl modules";

        //初始化了Scope、Frontier以及ProcessorChain

            setupCrawlModules();

        } catch (Exception e) {

            String tmp = "On crawl: "

                + settingsHandler.getSettingsObject(null).getName() + " " +

                onFailMessage;

            LOGGER.log(Level.SEVERE, tmp, e);

            throw new InitializationException(tmp, e);

        }

        

        Lookup.getDefaultCache(DClass.IN).setMaxEntries(1);

        //dns.getRecords("localhost", Type.A, DClass.IN);

        //实例化线程池

        setupToePool();

        setThresholds();

        

        reserveMemory = new LinkedList<char[]>();

        for(int i = 1; i < RESERVE_BLOCKS; i++) {

            reserveMemory.add(new char[RESERVE_BLOCK_SIZE]);

        }

    }

可以看出在initilize()方法中主要做一些初始化工作,但这些对于Heritrix的运行是必需的.

再来看看CrawlController的核心,requestCrawlStart()方法：

    public void requestCrawlStart() {

        //初始化处理器链

        runProcessorInitialTasks();

        sendCrawlStateChangeEvent(STARTED, CrawlJob.STATUS_PENDING);

        String jobState;

        state = RUNNING;

        jobState = CrawlJob.STATUS_RUNNING;

        sendCrawlStateChangeEvent(this.state, jobState);

        // A proper exit will change this value.

        this.sExit = CrawlJob.STATUS_FINISHED_ABNORMAL;

        

        Thread statLogger = new Thread(statistics);

        statLogger.setName("StatLogger");

        //开始日志线程

        statLogger.start();

        //启运Frontier，抓取工作开始

        frontier.start();

    }

可以看出，做了那么多工作，最终将启动Frontier的start方法，而Frontier将为线程池的线程提供URI，真正开始

抓取任务．至此，抓取任务开始.

主要参考:开发自己的搜索引擎—Lucene 2.0+Heritrix

深入学习Heritrix---解析CrawlController（转）的更多相关文章

Delphi之通过代码示例学习XML解析、StringReplace的用法（异常控制 good）
*Delphi之通过代码示例学习XML解析.StringReplace的用法这个程序可以用于解析任何合法的XML字符串. 首先是看一下程序的运行效果: 以解析这样一个XML的字符串为例: <? ...
深入学习Python解析并解密PDF文件内容的方法
前面学习了解析PDF文档,并写入文档的知识,那篇文章的名字为深入学习Python解析并读取PDF文件内容的方法. 链接如下:https://www.cnblogs.com/wj-1314/p/9429 ...
分布式深度学习DDL解析
分布式深度学习DDL解析一．概述给一个庞大的GPU集群,在实际的应用中,现有的大数据调度器会导致长队列延迟和低的性能,该文章提出了Tiresias,即一个GPU集群的调度器,专门适应分布式深度学习 ...
python学习（解析python官网会议安排）
在学习python的过程中,做练习,解析https://www.python.org/events/python-events/ HTML文件,输出Python官网发布的会议时间.名称和地点. 对ht ...
JavaScript自我学习之解析与执行
如果想要学好JavaScript那么我们首先必须要知道浏览器JavaScript引擎是如何解释执行JavaScript代码的,作为一名菜鸟,从自己学习JavaScript的过程来说,真心觉得不了解这些 ...
深入学习python解析并读取PDF文件内容的方法
这篇文章主要学习了python解析并读取PDF文件内容的方法,包括对学习库的应用,python2.7和python3.6中python解析PDF文件内容库的更新,包括对pdfminer库的详细解释和应 ...
React.js深入学习详细解析
今天,继续深入学习react.js. 目录: 一.JSX介绍二.React组件生命周期详解三.属性.状态的含义和用法四.React中事件的用法五.组件的协同使用六.React中的双向绑定 ...
Delphi之通过代码示例学习XML解析、StringReplace的用法
这个程序可以用于解析任何合法的XML字符串. 首先是看一下程序的运行效果: 以解析这样一个XML的字符串为例: <?xml version="1.0" encoding=&q ...
【javaweb学习】解析XML
XML解析方式有两种 dom:Document Object Model文档对象模型,是w3c组织推荐的解析方式 sax:Simple Api XML不是官方标准,但它是XML社区实际上的标准,几乎所 ...

随机推荐

WCF分布式开发步步为赢(7):WCF数据契约与序列化
本节继续学习WCF分布式开发步步为赢(7):WCF数据契约与序列化.数据契约是WCF应用程序开发中一个重要的概念,毫无疑问实现客户端与服务端数据契约的传递中序列化是非常重要的步骤.那么序列化是什么?为 ...
（转）Android之ListView原理学习与优化总结
转自: http://jishu.zol.com.cn/12893.html 在整理前几篇文章的时候有朋友提出写一下ListView的性能优化方面的东西,这个问题也是小马在面试过程中被别人问到的….. ...
sizeof学习理解
以下内容转自: http://www.cnblogs.com/ComputerG/archive/2012/02/02/2335611.html 博问闪存首页新随笔联系管理随笔- 72 ...
INTERESTING AND OBSCURE INHERITANCE ISSUES WITH CPP
1. using 关键字使用 using 关键字,可以将父类中被隐藏的函数暴露在子类中,但是需要注意的是,在相同情况下,子类函数的优先级更高. 2. 继承构造函数(C++11) 在c++11之前, ...
卷积相关公式的matlab代码
取半径=3 用matlab代码实现上式公式: length=3;for Ki = 1:length for Kj = 1:length for Kk = 1:length Ksigma(Ki,Kj,K ...
java中的基本数据类型存放位置
基本数据类型是放在栈中还是放在堆中,这取决于基本类型声明的位置. 一:在方法中声明的变量,即该变量是局部变量,每当程序调用方法时,系统都会为该方法建立一个方法栈,其所在方法中声明的变量就放在方法栈中, ...
ARM菜鸟：JLINK与JTAG的区别
调试ARM,要遵循ARM的调试接口协议,JTAG就是其中的一种.当仿真时,IAR.KEIL.ADS等都有一个公共的调试接口,RDI就是其中的一种,那么我们如何完成RDI-->ARM调试协议(JT ...
Qt_5_3_MSVC2012-编译QFtp-qt5编译QFtp
一.下载源码 git clone https://qt.gitorious.org/qt/qtftp.git 或者直接下载:云盘下载二.构建 1.不对源码修改,直接构建qtftp 2.做如下修改,再 ...
Intellij Idea 15 生成serialVersionUID的方法
默认情况下Intellij IDEA是关闭了继承了Serializable接口的类生成serialVersionUID的警告.如果需要ide提示生成serialVersionUID,那么需要做以下设置 ...
__init__ 和 self
看代码 class A: def __init__(self, val): self.name = val def printName(self): print self.name a = A(&qu ...

深入学习Heritrix---解析CrawlController（转）

深入学习Heritrix---解析CrawlController（转）的更多相关文章

随机推荐

热门专题