本教程,结合本人亲身实践,不仅适合于最新版本Heritrix 1.14.4,更适合其他任何版本。Heritrix具体下载地址如下:
      http://sourceforge.net/projects/archive-crawler/files/archive-crawler%20%28heritrix%201.x%29/

本实例所用的为Heritrix1.14.4的源代码版本,即你只需下载一个文件即可:heritrix-1.14.4-src.zip。 之所以采用源代码版本,是因为本实例中,需要对Heritrix 进行一些扩展,以适应本实例的需求。网上教程多是下载两个文件heritrix-1.14.4.zip和heritrix-1.14.4-src.zip,即费时,又大多无效,按照网上流传配置办法很难成功。这里我已在MyEclipse里顺利配置完成并抓取到所需网页,下面开始配置流程:

1、将heritrix-1.14.4-src.zip的压缩包解压,目录中的lib和src是本实例需要的两个文件夹。 “lib”文件夹下存放的是Heritrix 运行时候所需要的第三方类库,“src”文件夹下就是Heritrix 的源代码。

2、在Eclipse 中打开菜单:File/new/Java Project,并在“Project name”中输入“Heritrix”,这样就新建了一个项目名称叫做Heritrix ,同时将源代码文件夹下的lib文件夹拖放置新建好的项目工程Heritrix 下。在Elipse里的项目工程内,找到刚刚拖进去的lib文件夹,把里面所有的.jar文件选中,右键Build Path→ Add to...,这样便完成了运行库的添加任务。

3、将位于Heritrix 源代码文件夹下的src\ Java \ 的org和st两个文件夹直接拖进Heritrixj工程的src下。如果当添加完后报错,只是因为你的太低版本的Eclipse默认的编译版本为1.4,所以要改成1.5或者1.6版本。单击菜单中的Window ,选择Preferences之后,展开左边的Java选项,单击其中的“Compiler”,将Compiler compliancelevel改成J2EE1.6或1.5。

4、将位于解压后文件夹下的src \ conf\下的所有文件和文件夹拖至Heritrix 工程的src内,在src 内找到heritrix .properties并打开。 该文件是Heritrix  的配置文件,在“heritrix .cmdline.admin= ”后边添加用户和密码,格式如:“admin:admin”,在登录Heritrix 的管理界面时需要此用户名和密码。 在配置文件中还能够指定Heritrix 管理界面的访问端口,建议可为8080端口。

错误1:Access restriction: The type FileURLConnection is not accessible due to restriction on required library C:\Program Files\Java\jdk1.6.0_20\jre\lib\rt.jar,如图 1 所示。
解决方案:这是 JRE 的访问限制导致报错,在 MyHeritrix 工程上右键单击选择“Build PathConfigure Build Path …”,然后选择 Library 选项卡,将“JRE System Library”删除然后重新导入一下即可修复。或者选择“WindowsPreferencesJavaCompilerErrors/Warnings”找到“Deprecated and restricted API”下的“Forbidden reference (access rules)”,将默认设置“Error”改为“Warning”或“Ignore”。
图 1.  Access restriction 错误

错误2:这个时候会报错NullPointerException 的错误:这个错误的原因是缺少了“tlds-alpha-by-domain.txt”文件,在 heritrix-1.14.4-src\src\resources\org\archive\util 下可以找到该文件,将其拷贝到org.archive.util包(MyHeritrix\src\org\archive\util) 中即可。
图2. NullPointerException 错误

5、将Heritrix 源代码文件夹下的src下的其他文件夹,即除conf 和Java两个文件夹以外的所有文件夹,拖至Heritrix 项目工程下,

6、至此,Heritrix 已经可以运行起来了。 运行Heritrix ,选择执行org.archive.crawler包下的heritrix.java文件,以Java application方式运行。然后Heritrix 会在控制台输出一段信息,最后是版本号,这就表示Heritrix 已经运行成功了。

7、启动浏览器并在浏览器的地址栏中输入http://localhost:8080 便可看到Heritrix 的登录界面。用户名和密码处分别输入在配置文件中,输入的admin和admin,单击“Login”按钮后便能看到Heritrix 的控制台界面。

到此,Heritrix安装与配置完成。

最好的参考教程:http://www.ibm.com/developerworks/cn/opensource/os-cn-heritrix/index.html?ca=drs-#major2 (很好的错误解决方案)

Heritrix的安装与配置 (最新版 已测试通过)的更多相关文章

  1. ubuntu下安装和配置最新版JDK8傻瓜教程

    ubuntu下安装和配置最新版JDK8傻瓜教程 听语音 | 浏览:18940 | 更新:2014-07-14 22:13 | 标签:ubuntu 1 2 3 4 5 6 分步阅读 ubuntu系统通常 ...

  2. Dubbo入门到精通学习笔记(十三):ZooKeeper集群的安装、配置、高可用测试、升级、迁移

    文章目录 ZooKeeper集群的安装.配置.高可用测试 ZooKeeper 与 Dubbo 服务集群架构图 1. 修改操作系统的/etc/hosts 文件,添加 IP 与主机名映射: 2. 下载或上 ...

  3. Dubbo入门到精通学习笔记(十四):ActiveMQ集群的安装、配置、高可用测试,ActiveMQ高可用+负载均衡集群的安装、配置、高可用测试

    文章目录 ActiveMQ 高可用集群安装.配置.高可用测试( ZooKeeper + LevelDB) ActiveMQ高可用+负载均衡集群的安装.配置.高可用测试 准备 正式开始 ActiveMQ ...

  4. Mahout学习之Mahout简介、安装、配置、入门程序测试

    一.Mahout简介 查了Mahout的中文意思——驭象的人,再看看Mahout的logo,好吧,想和小黄象happy地玩耍,得顺便陪陪这位驭象人耍耍了... 附logo: (就是他,骑在象头上的那个 ...

  5. ZooKeeper集群的安装、配置、高可用测试

    Dubbo注册中心集群Zookeeper-3.4.6 Dubbo建议使用Zookeeper作为服务的注册中心. Zookeeper集群中只要有过半的节点是正常的情况下,那么整个集群对外就是可用的.正是 ...

  6. 分布式架构高可用架构篇_01_zookeeper集群的安装、配置、高可用测试

    参考: 龙果学院http://www.roncoo.com/share.html?hamc=hLPG8QsaaWVOl2Z76wpJHp3JBbZZF%2Bywm5vEfPp9LbLkAjAnB%2B ...

  7. 分布式架构高可用架构篇_02_activemq高可用集群(zookeeper+leveldb)安装、配置、高可用测试

    参考: 龙果学院http://www.roncoo.com/share.html?hamc=hLPG8QsaaWVOl2Z76wpJHp3JBbZZF%2Bywm5vEfPp9LbLkAjAnB%2B ...

  8. 分布式架构高可用架构篇_activemq高可用集群(zookeeper+leveldb)安装、配置、高可用测试

    原文:http://www.iteye.com/topic/1145651 从 ActiveMQ 5.9 开始,ActiveMQ 的集群实现方式取消了传统的Master-Slave 方式,增加了基于Z ...

  9. ZooKeeper 集群的安装、配置---Dubbo 注册中心

    ZooKeeper 集群的安装.配置.高可用测试 Dubbo 注册中心集群 Zookeeper-3.4.6 Dubbo 建议使用 Zookeeper 作为服务的注册中心. Zookeeper 集群中只 ...

随机推荐

  1. GridView点击行,选中模版列中CheckBox

    <asp:TemplateField ItemStyle-Width="40px" HeaderText="选择" ItemStyle-Horizonta ...

  2. WinForm窗体之间传值

    当程序需要将一个窗体中的一些信息传给另一个窗体并让其使用时,就需要用到这个知识点 方法一:通过接受参数的窗体的构造函数传值 例:现有Form1和Form2两个窗体,二者都包含一个文本框,Form1还包 ...

  3. 抓取锁的sql语句-第二次修改

    CREATE OR REPLACE PROCEDURE SOLVE_LOCK AS V_SQL VARCHAR2(3000);  --定义 v_sql 接受抓取锁的sql语句 CUR_LOCK SYS ...

  4. iOS移动端架构的那些事!(转载)

    一个app的初始阶段,必然是先满足各种业务需求.然后,经过多次版本迭代之后,先前的由于急于满足需求而导致的杂乱代码则会充斥整个项目.而此时,项目有了一定的规模,有了一定数量的开发人员,那么为了达到快速 ...

  5. C#(WinForm)上传图片保存到数据库和从数据库读取图片显示到窗体

    //浏览图片 private void btnUp_Click(object sender, EventArgs e) { OpenFileDialog ofd = new OpenFileDialo ...

  6. Puer是一个可以实时编辑刷新的前端服务器

    ##Puer是一个可以实时编辑刷新的前端服务器 确保你安装了nodejs(现在还有没nodejs环境的前端? 拖出去喂狗吧) 使用npm全局安装puer命令 npm install puer -g 输 ...

  7. Zsh安装CMake补全脚本进行CMake命令补全

    最近在尝试使用Zsh,发现其补全命令的功能相当厉害.但对CMake命令的补全在默认的5.0.5中好像没有看到,网上找了下关于配置Zsh补全的文章也没有多少.     于是自己动手,发现在Zsh安装目录 ...

  8. Java简介(4)-关键字

    abstract assert boolean break byte byte case catch char class const continue default do-while double ...

  9. 09_linux下安装Nvidia显卡驱动

    下载驱动 去官网找去,哈哈o(^▽^)o 安装kernel source [root@localhost ~]# yum install kernel-devel 如果还不行,试试下面的 [root@ ...

  10. JS浮点数运算Bug

    JS浮点数运算Bug的解决办法(转) 37.5*5.5=206.08 (JS算出来是这样的一个结果,我四舍五入取两位小数) 我先怀疑是四舍五入的问题,就直接用JS算了一个结果为:206.0849999 ...