【Heritrix基础教程之1】在Eclipse中配置Heritrix

一、新建项目并将Heritrix源代码导入

１、下载heritrix-1.14.4-src.zip和heritrix-1.14.4.zip两个压缩包，并解压，以后分别简称SRC包和ZIP包；

２、在Eclipse下新建Java项目，取名Heritrix.1.14.4；

３、复制SRC包以下src/java目录下org和st两个目录到项目中的src包下；

４、复制SRC包下src下conf文件夹到项目根文件夹；

５、复制SRC包下lib文件夹到项目根文件夹；

６、复制ZIP包下webapps文件夹到项目根文件夹；

７、改动项目下conf下heritrix.properties文件

heritrix.version = <span style="color:#ff0000;">1.14.4</span>

# Location of the heritrix jobs directory.

heritrix.jobsdir = jobs

# Default commandline startup values.

# Below values are used if unspecified on the command line.

heritrix.cmdline.admin = <span style="color:#ff0000;">admin:admin</span>

heritrix.cmdline.port = <span style="color:#ff0000;">8080</span>

主要改动 version， username、password及端口号

８、在项目上右键选择构建路径->配置构建路径->库选项卡->加入Jar，将lib文件夹下的全部.jar文件选中，点击完毕！

９、在项目/src/org.archive.crawler包下Heritrix.java上点击右键选Run as->Run Configurations->Classpath->User Entries->Advanced->Add Folder->选择项目下conf目录，最后点击Run

然后，就能够从http://127.0.0.1:8080/中登录系统。

在Liunx上执行heritrix

（1）export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:/home/jediael/Heritirx1.14.4/lib/*:/home/jediael/Heritirx1.14.4/bin/*:/home/jediael/Heritirx1.14.4/conf/*

（2）cp -r webapps/ bin/

（3）cd bin

(4)java org.archive.crawler.Heritrix

注意此种方法仅仅能在本机上通过127.0.0.1来进行訪问，由于代码中写了：

final String ROOTURI = "127.0.0.1:" + Integer.toString(port);

String selfTestUrl = "http://" + ROOTURI + '/';

即仅仅用于本机測试。

二、配置爬虫任务并開始下载

1、登录系统 admin/admin

2、点击Jobs--->create new job---->with defaults

每次新建一个job，都等于创建一个新的order.xml。在Heritrix中，每一个任务相应一个order.xml，用于描写叙述任务的属性。它用于指定Job的Processor类、Frontier类、Fetcher类、抓取时的最大线程数、最长超时等属性。

3、输入基本信息，注意seeds中最后必须有一个"/"

4、选择下边的"Modules"，进入Module配置页（Heritrix的扩展功能都是通过模块概念实现的，能够实现自己的模块完毕自己想要的功能）。当中第一项 "Select Crawl Scope" 使用默认的"org.archive.crawler.deciderules.DecidingScope" 。倒数第三项 "Select Writers " 删除默认的 "org.archive.crawler.writer.ARCWriterProcessor" ，后加入 "org.archive.crawler.writer.MirrorWriterProcessor"，这样运行任务的时候抓取到的页面会以镜像的方式放在本地的文件夹结构中，而不是生成ARC存档文件。

5、选择"Modules"右边的"Submodules"，在第一项内容中 "crawl-order ->scope->decide-rules->rules" 删除掉当中的 "acceptIfTranscluded" (org.archive.crawler.deciderules.TransclusionDecideRule) 的这一项抓取作用域的规则。否则当Http请求返回301或者302时Heritrix会去抓取其它域下的网页。

6、在WUI的第二行导航栏中选择"Settings"进入Job的配置页面，当中主要改动两项：http-headers 下的user-agent 和from，他们的"PROJECT_URL_HERE" 和 "CONTACT_EMAIL_ADDRESS_HERE" 替换为自己的内容（"PROJECT_URL_HERE" 要以 "http://" 开头）

7、在WUI的第二行导航栏中选择最右边的"Submit job"

8、在WUI的第一行导航栏中选择第一项的"Console"，点击"Start"，抓取任务正式開始，时间长短有网络状况和所抓取站点的深度有关。点击"refresh"能够监控下载情况

还可点击logs等观察日志。

9、默认情况下，文件下载至"项目位置\jobs"。

三、一些说明

1、创建项目后，Heritrix中报错：sun.net.www.protocol.file.FileURLConnection，原由于sun包是受保护的包，默认仅仅有sun公司的软件才干使用。Eclipse会报错，把对保护使用waring就能够了。

过程例如以下：Windows -> Preferences -> Java -> Compiler -> Errors/Warnings-> Deprecated and trstricted API -> Forbidden reference (access rules):
-> change to warning

2、在进入module配置页，若发现全部的配置能够删除，移动，可是不能够加入和改动，没有可选的下拉框。原由于配置文件找不到，应该在classpath标签页加入配置文件的路径。

即第一部分的第9步。

3、问题： thread-10 org.archive.util.ArchiveUtils.<clinit>()
TLD list unavailable

java.lang.NullPointerException

at java.io.Reader.<init>(Unknown Source)

at java.io.InputStreamReader.<init>(Unknown Source)

at org.archive.util.ArchiveUtils.<clinit>(ArchiveUtils.java:759)

解决：将heritrix-1.14.4-src.zip解压中src/resources/org/archive/util中tlds-alpha-by-domain.txt文件拷贝到project中org.archive.util包下。

四、Modules中的一些配置项

在Modules界面中，共同拥有8个选项须要配置，包含下面

1、Crawl Scope

用于配置抓取范围。选项请见下图。

依据名称能够直观的知道抓取范围，默认是BroadScope，即不限制范围。

从下拉框中选择某一项后，点击chang按键，则下拉框上面的解释会对应的发生变化，描写叙述当前选项的特征。

2、URI Frontier

用于确定待抓取的url的顺序，亦即对应的算法。默认项为BdbFrontier。

3、Pre Processors：Processors
that should run before any fetching

在抓取前，处理器对一些先决条件做的推断。比方推断robot.txt等信息，它是整个处理器链的入口。

4、Fetchers：Processors
that fetch documents using various protocols

指定解释、提取哪些类型的文件

5、Extractors：Processors
that extracts links from URIs

用于提取当前获取到文件的信息。

6、Writers：Processors
that write documents to archive files

选择保存的方式，经常使用的有2种：

org.archive.crawler.writer.MirrorWriterProcessor：保存镜像，即将文件直接下载下来。

org.archive.crawler.writer.ARCWriterProcessor：以归档的格式下载下来，此时文件不可直接查看。此项为default模块的默认选项。

7、Post Processors Processors that do cleanup and feed the Frontier with new URIs

抓取后的收尾工作。

8、Statistics Tracking

用于一些统计信息。

五、Setting中的一些配置项

改动下载文件的路径

【Heritrix基础教程之1】在Eclipse中配置Heritrix的更多相关文章

【Heritrix基础教程之1】在Eclipse中配置Heritrix 分类： H3_NUTCH 2014-06-01 00:00 1262人阅读评论(0) 收藏
一.新建项目并将Heritrix源码导入 1.下载heritrix-1.14.4-src.zip和heritrix-1.14.4.zip两个压缩包,并解压,以后分别简称SRC包和ZIP包: 2.在Ec ...
【Heritrix基础教程之3】Heritrix的基本架构
Heritrix可分为四大模块: 1.控制器CrawlController 2.待处理的uri列表 Frontier 3.线程池 ToeThread 4.各个步骤的处理器 (1)Pre-fetch ...
【Heritrix基础教程之3】Heritrix的基本架构分类： H3_NUTCH 2014-06-01 16:56 1267人阅读评论(0) 收藏
Heritrix可分为四大模块: 1.控制器CrawlController 2.待处理的uri列表 Frontier 3.线程池 ToeThread 4.各个步骤的处理器 (1)Pre-fetch ...
【Heritrix基础教程之2】Heritrix基本内容介绍
1.版本说明 (1)最新版本:3.3.0 (2)最新release版本:3.2.0 (3)重要历史版本:1.14.4 3.1.0及之前的版本:http://sourceforge.net/projec ...
【Heritrix基础教程之2】Heritrix基本内容介绍分类： B1_JAVA H3_NUTCH 2014-06-01 13:02 878人阅读评论(0) 收藏
1.版本说明 (1)最新版本:3.3.0 (2)最新release版本:3.2.0 (3)重要历史版本:1.14.4 3.1.0及之前的版本:http://sourceforge.net/projec ...
【Heritrix基础教程之4】开始一个爬虫抓取的全流程代码分析
在创建一个job后,就要开始job的运行,运行的全流程如下: 1.在界面上启动job 2.index.jsp 查看上述页面对应的源代码 <a href='"+request.getCo ...
OpenVAS漏洞扫描基础教程之OpenVAS概述及安装及配置OpenVAS服务
OpenVAS漏洞扫描基础教程之OpenVAS概述及安装及配置OpenVAS服务 1. OpenVAS基础知识 OpenVAS(Open Vulnerability Assessment Sys ...
Python基础教程之List对象转
Python基础教程之List对象时间:2014-01-19 来源:服务器之家投稿:root 1.PyListObject对象typedef struct { PyObjec ...
Python基础教程之udp和tcp协议介绍
Python基础教程之udp和tcp协议介绍 UDP介绍 UDP --- 用户数据报协议,是一个无连接的简单的面向数据报的运输层协议.UDP不提供可靠性,它只是把应用程序传给IP层的数据报发送出去,但 ...

随机推荐

两个表，一个表中的两列关联另一个表的id，如何将这个表中的两列显示为另一个表id对应的内容
表A name user owner machine1 1 2 machine2 3 4 表B userid username 1 aaa 2 bbb 3 ccc 4 ddd 以上两个表,表A 设备的 ...
easyui源码翻译1.32--Calendar(日历)
前言前几天加班比较忙未能及时更新翻译的今天多发布几篇..下载该插件翻译源码日历控件显示一个月的日历,允许用户选择日期和移动到下一个或上一个月.默认情况下,一周的第一天是周日.它可以通过设置'f ...
SPRING IN ACTION 第4版笔记-第五章BUILDING SPRING WEB APPLICATIONS-005-以path parameters的形式给action传参数(value=“{}”、@PathVariable)
一 1.以path parameters的形式给action传参数 @Test public void testSpittle() throws Exception { Spittle expecte ...
164. Maximum Gap
题目: Given an unsorted array, find the maximum difference between the successive elements in its sort ...
【HDOJ】1197 Specialized Four-Digit Numbers
水题,暴力可解. #include <iostream> using namespace std; int chg(int n, int base); int main() { int i ...
HDU4739Zhuge Liang's Mines(状压）
链接预处理出只有四个1的情况存入数组中然后状压下 #include <iostream> #include<cstdio> #include<cstring> ...
URAL1658. Sum of Digits(DP)
链接这题卡了挺久了昨天试着用类似dfs的方法直接TLE在第二组看了下题解,,发现s1,s2的范围是个幌子..100位最大的s1900 s28100 觉得s1s2太大不敢开二维.. 这样就简单了 ...
JSOI2009 游戏
1443: [JSOI2009]游戏Game Time Limit: 10 Sec Memory Limit: 162 MBSubmit: 557 Solved: 251[Submit][Stat ...
Charles抓Https的包
1: 手机上打开这个地址, 安装文件. http://www.charlesproxy.com/getssl 2:保证手机与电脑在同一个网段 3:按住alt再点击wifi, 显示出当前电脑的ip地址. ...
[转]ASP.NET MVC 入门10、Action Filter 与内置的Filter实现(实例-防盗链)
前一篇中我们已经了解了Action Filter 与内置的Filter实现,现在我们就来写一个实例.就写一个防盗链的Filter吧. 首先继承自FilterAttribute类同时实现IAction ...

【Heritrix基础教程之1】在Eclipse中配置Heritrix

【Heritrix基础教程之1】在Eclipse中配置Heritrix的更多相关文章

随机推荐

热门专题