Heritrix3.x自定义扩展Extractor

一、引言：

　　Heritrix3.x与Heritrix1.x版本差异比较大，全新配置模式的引入+扩展接口的变化，同时由于说明文档的匮乏，给Heritrix的开发者带来困惑，前面的文章已经就Heritrix的配置部署和运行做了说明，本文就Heritrix3.x版本就Extractor扩展做出实例说明。

二、配置说明

　　Heritrix3.x的WebUI发生了变化，不在是原来那种WebUI选择模式，而是变成了在线配置文件直接编辑模式。在这里自定义的Extractor要想加入Heritrix运行，首先需要修改配置文件，降自定义扩展的Extractor加入到Heritrix的Processor队列。完整配置文件如下所示：

　　2.1 配置文件

  <!-- FETCH CHAIN -->

  <!-- processors declared as named beans -->

  <bean id="preselector" class="org.archive.crawler.prefetch.Preselector">

  </bean>

  <bean id="preconditions" class="org.archive.crawler.prefetch.PreconditionEnforcer">

  </bean>

  <bean id="fetchDns" class="org.archive.modules.fetcher.FetchDNS">

  </bean>

  <bean id="fetchHttp" class="org.archive.modules.fetcher.FetchHTTP">

  </bean>

  <bean id="extractorHttp" class="org.archive.modules.extractor.ExtractorHTTP">

  </bean>
-------------------------------自定义Extractor------------------------------------

  <bean id="SohuNewsExtractor" class="my.SohuNewsExtractor">

  </bean>
---------------------------------------------------------------------------------

  <bean id="extractorHtml" class="org.archive.modules.extractor.ExtractorHTML">

  </bean>

  <bean id="extractorCss" class="org.archive.modules.extractor.ExtractorCSS">

  </bean>

  <bean id="extractorJs" class="org.archive.modules.extractor.ExtractorJS">

  </bean>

  <bean id="extractorSwf" class="org.archive.modules.extractor.ExtractorSWF">

  </bean>

  <!-- assembled into ordered FetchChain bean -->

  <bean id="fetchProcessors" class="org.archive.modules.FetchChain">

   <property name="processors">

    <list>

     <!-- recheck scope, if so enabled... -->

     <ref bean="preselector"/>

     <!-- ...then verify or trigger prerequisite URIs fetched, allow crawling... -->

     <ref bean="preconditions"/>

     <!-- ...fetch if DNS URI... -->

     <ref bean="fetchDns"/>

     <!-- ...fetch if HTTP URI... -->

     <ref bean="fetchHttp"/>

     <!-- ...extract oulinks from HTTP headers... -->

     <ref bean="extractorHttp"/>

----------------------------自定义Extractor----------------------------------------------

     <!-- ...extract oulinks from HTTP content... -->

     <ref bean="SohuNewsExtractor"/>
---------------------------------------------------------------------------------------

     <!-- ...extract oulinks from HTML content... -->

     <ref bean="extractorHtml"/>

     <!-- ...extract oulinks from CSS content... -->

     <ref bean="extractorCss"/>

     <!-- ...extract oulinks from Javascript content... -->

     <ref bean="extractorJs"/>

     <!-- ...extract oulinks from Flash content... -->

     <ref bean="extractorSwf"/>

    </list>

   </property>

  </bean>

　　2.2 添加Bean和配置调度列表

  <bean id="extractorHttp" class="org.archive.modules.extractor.ExtractorHTTP">

  </bean>
-------------------------------自定义Extractor------------------------------------

  <bean id="SohuNewsExtractor" class="my.SohuNewsExtractor">

  </bean>
---------------------------------------------------------------------------------
...
----------------------------自定义Extractor---------------------------------------

     <!-- ...extract oulinks from HTTP content... -->

     <ref bean="SohuNewsExtractor"/>
---------------------------------------------------------------------------------
配置完成以上部分，既可以实现自定义Extractor参与Processor任务处理的调度。

三、程序说明

　　3.1 Extractor基类

　　Extractor基类发生了变化，新增了新的接口方法：

     @Override

     protected boolean shouldProcess(CrawlURI uri) {

         // TODO Auto-generated method stub

         return false;

     }

　　如果不实现此方法，自定义扩展的Extractor的函数void extract(CrawlURI uri)将不会被调度。

　　3.2 构造函数

　　1.x版本的构造函数如下：　　

    public Extractor(String name, String description) {

        super(name, description);

        // TODO Auto-generated constructor stub

    }

　　3.x版本的构造函数取消了参数，采用的默认构造函数。

四、遗留问题

　　protected void extract(CrawlURI curi)

　　{

　　//1. 做哪些处理？

　　//2. 如何控制后续的下载行为，要求只下载自己想要的内容

　　}

Heritrix3.x自定义扩展Extractor的更多相关文章

SharePoint 2013 自定义扩展菜单
在对SharePoint进行开发或者功能扩展的时候,经常需要对一些默认的菜单进行扩展,以使我们开发的东西更适合SharePoint本身的样式.SharePoint的各种功能菜单,像网站设置.Ribbo ...
SharePoint 2013 自定义扩展菜单（二）
接博文<SharePoint 2013 自定义扩展菜单>,多加了几个例子,方便大家理解. 例七列表设置菜单扩展(listedit.aspx) 扩展效果 XML描述 <CustomA ...
WCF自定义扩展，以实现aop！
引用地址:https://msdn.microsoft.com/zh-cn/magazine/cc163302.aspx 使用自定义行为扩展 WCF Aaron Skonnard 代码下载位置: S ...
Jquery自定义扩展方法（二）--HTML日历控件
一.概述研究了上节的Jquery自定义扩展方法,自己一直想做用jquery写一个小的插件,工作中也用到了用JQuery的日历插件,自己琢磨着去造个轮子--HTML5手机网页日历控件,废话不多说,先看 ...
Silverlight实例教程 - 自定义扩展Validation类,验证框架的总结和建议（转载）
Silverlight 4 Validation验证实例系列 Silverlight实例教程 - Validation数据验证开篇 Silverlight实例教程 - Validation数据验证基础 ...
jQuery 自定义扩展，与$冲突处理
<!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title> ...
SparkContext自定义扩展textFiles，支持从多个目录中输入文本文件
需求 SparkContext自定义扩展textFiles,支持从多个目录中输入文本文件扩展 class SparkContext(pyspark.SparkContext): def ...
基于 HtmlHelper 的自定义扩展Container
基于 HtmlHelper 的自定义扩展Container Intro 基于 asp.net mvc 的权限控制系统的一部分,适用于对UI层数据呈现的控制,基于 HtmlHelper 的扩展组件 Co ...
第十三节：HttpHander扩展及应用(自定义扩展名、图片防盗链)
一. 自定义扩展名 1. 前言凡是实现了IHttpHandler接口的类均为Handler类,HttpHandler是一个HTTP请求的真正处理中心,在HttpHandler容器中,ASP.NET ...

随机推荐

ZOJ 3161 Damn Couples 动态规划难度:2
Damn Couples Time Limit: 1 Second Memory Limit: 32768 KB As mentioned in the problem "Coup ...
Html.RenderPartial("")与Html.Partial(""）区别
这个HtmlHelper的扩展方法Partial,和HtmlHelper自带的 RenderPartial功能比较接近, 两者都可以输出一个Partial视图:其区别如下: <一>. Pa ...
Our supersheet
<!DOCTYPE html> <html> <head> <meta charset="utf-8"> <title> ...
Python Django 前后端数据交互之后端向前端发送数据
Django 前后台的数据传递严正声明:作者:psklf出处: http://www.cnblogs.com/psklf/archive/2016/05/30/5542612.html欢迎转载,但未 ...
php截取中文字符串 GB2312 utf-8
UTF-8截取中文字符串 function Cn_Substr($string, $length) { preg_match_all("/[\x01-\x7f]|[\xc2-\xdf][\x ...
git 添加review的相关操作
git主机上涉及到的操作: 185 git branch 186 git pull 187 git branch 188 git checkout -b wangcheng 189 git log 1 ...
玩转X-CTR100 l STM32F4 l ADC 模拟数字转换
我造轮子,你造车,创客一起造起来!塔克创新资讯[塔克社区 www.xtark.cn ][塔克博客 www.cnblogs.com/xtark/ ] 本文介绍X-CTR100控制器 AD转换接 ...
DevExpress v17.2新版亮点——VCL篇（二）
用户界面套包DevExpress v17.2日前终于正式发布,本站将以连载的形式为大家介绍各版本新增内容.本文将介绍了DevExpress VCL v17.2 的新功能,快来下载试用新版本! DPI ...
JSP--TOMCAT-MYSQL web页面删除
deleteStudentjsp.jsp页面代码 <%@ page language="java" contentType="text/html; charset= ...
Python 动态传参
def chi(zhushi, cai, fushi, tang, tiandian): print(zhushi,cai,fushi,tang,tiandian) chi("大碗大米饭&q ...

Heritrix3.x自定义扩展Extractor

Heritrix3.x自定义扩展Extractor的更多相关文章

随机推荐

热门专题