Nutch1.7学习笔记:基本环境搭建及使用

作者:雨水,时间:2013-10-31博客地址:http://blog.csdn.net/gobitan

说明:Nutch有两个主版本1.x和2.x,它们的主要区别是2.x引入了Gora作为存储抽象层,从而支持各种NoSQL数据库,如HBase,Cassandra等。本文是以1.x的最新版Nutch1.7 (发布于2013年6月25日)为例。

环境准备

  1. 一台Ubuntu Linux服务器,可以装在VMware虚拟机中。
  2. 下载Nutch1.7版本的二进制包,地址:http://www.apache.org/dyn/closer.cgi/nutch/,选择一个站点进入后,下载1.7目录下的apache-nutch-1.7-bin.zip.
  3. 下载Solr3.6版本的二进制包,地址: http://www.apache.org/dyn/closer.cgi/lucene/solr/,选择一个站点进入后,下载3.6.2目录下的apache-solr-3.6.2.zip .

安装配置Nutch

将apache-solr-3.6.2.zip解压,然后执行如下命令:

$mv apache-nutch-1.7nutch

$cd nutch

$bin/nutch

上面两行命令是进入解压后的目录,然后执行nutch命令。如果出现” Usage: nutch COMMAND”的帮助提示,则表明安装成功。如果有问题,可以检查看bin/nutch是否有可执行权限,如果没有可执行”chmod +x bin/nutch”命令添加可执行权限然后再尝试”bin/nutch”。

2. 配置JAVA_HOME环境变量

执行” echo $JAVA_HOME”如果返回空,则表明该变量未设置。需执行如下命令:

$cd

$vi .bashrc

然后将如下文本加入到.bashrc的末尾,注意:需将JAVA_HOME的值替换为你的Javajdk的路径。如果没有安装JDK,建议安装OracleJDK.

export JAVA_HOME=/home/dennis/jdk1.6.0_37

然后执行如下命令刷新当前的环境变量:

$. .bashrc

3. 配置Nutch

(1)配置conf/nutch-default.xml

$cd nutch

$ vi conf/nutch-default.xml

将http.agent.name属性的值改为如下:

<property>

 <name>http.agent.name</name>

 <value>My Nutch Spider</value>

</property>

(2) 创建urls相关配置:

$ mkdir urls

$cd urls

$ touch seed.txt

然后将你希望爬的网址放入seed.txt中,这里以” http://nutch.apache.org”为例。

(3) 编辑conf/regex-urlfilter.txt将原有的

# accept anything else

+.

替换为你以正则表达式匹配的你希望爬的地址。例如:

+^http://([a-z0-9]*\.)*nutch.apache.org/

这是用正则表达式来限制爬虫的范围仅限于nutch.apache.org这个域。

运行Nutch:

$ bin/nutch crawl urls -dir crawl -depth 3 -topN5

运行上述命令执行爬虫。

与Solr集成:

1. 安装:将apache-solr-3.6.2.zip解压,然后执行如下命令:

$mv apache-solr-3.6.2 solr

$cd solr/example

$ java -jar start.jar

2. 验证:分别访问如下两个链接,需都能正常访问才可。

http://localhost:8983/solr/admin/

http://localhost:8983/solr/admin/stats.jsp

3. 与Nutch集成:

(1) 拷贝schema.xml配置文件

将nutch/conf/schema-solr.xml拷贝至solr/example/solr/conf/下,并重命名为schema.xml(覆盖原有的)。

(2) 执行”java -jar start.jar”重启Solr,需先进入solr/example目录。

(3) 执行Solr索引命令,如下:

bin/nutch solrindex http://127.0.0.1:8983/solr/crawl/crawldb -linkdb crawl/linkdb crawl/segments/*

注意:执行时需先进入nutch目录。

(4) 访问http://192.168.128.129:8983/solr/admin/测试,可以在Query String中输入” GettingStarted”进行查询,可以得到两个结果。

还可以集成中文分词,以便更好地支持中文。

集成中文分词相关配置如下:

 

schema.xml

<fieldType name="text"class="solr.TextField">

<analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/>

</fieldType>

solrconfig.xml

<lib dir="../../contrib/ik/lib"regex=".*\.jar" />

同时需下载对应的jar包放至相应的目录。

参考资料:

1. http://wiki.apache.org/nutch/NutchTutorial

Nutch1.7学习笔记:基本环境搭建及使用的更多相关文章

  1. Android Studio 学习笔记(一)环境搭建、文件目录等相关说明

    Android Studio 学习笔记(一)环境搭建.文件目录等相关说明 引入 对APP开发而言,Android和iOS是两大主流开发平台,其中区别在于 Android用java语言,用Android ...

  2. 我的Java学习笔记 -开发环境搭建

    开始学习Java~ 一.Java简介 Java编程语言是一种简单.面向对象.分布式.解释型.健壮安全.与系统无关.可移植.高性能.多线程和动态的语言. Java分为三个体系: JavaSE(J2SE) ...

  3. Django学习笔记 开发环境搭建

    为什么使用django?1.支持快速开发:用python开发:数据库ORM系统,并不需要我们手动地构造SQL语句,而是用python的对象访问数据库,能够提升开发效率.2.大量内置应用:后台管理系统a ...

  4. cocos2d-x lua 学习笔记(1) -- 环境搭建

    Cocos2d-x 3.0以上版本的环境搭建和之前的Cocos2d-x 2.0 版差异较大的,同时从Cocos2d-x 3.0项目打包成apk安卓应用文件,搭建安卓环境的步骤有点繁琐,但搭建一次之后, ...

  5. SpringData JPA的学习笔记之环境搭建

    一.环境搭建 1.加入jar包   spring jar+jpa jar +springData jar >>SpringData jar包     2.配置applicationCont ...

  6. Mybatis学习笔记之---环境搭建与入门

    Mybatis环境搭建与入门 (一)环境搭建 (1)第一步:创建maven工程并导入jar包 <dependencies> <dependency> <groupId&g ...

  7. 前端框架vue学习笔记:环境搭建

    兼容性 不兼容IE8以下 Vue Devtools 能够更好的对界面进行审查和调试 环境搭建 1.nodejs(新版本的集成了npm)[npm是node包管理 node package manager ...

  8. Web安全测试学习笔记 - vulhub环境搭建

    Vulhub和DVWA一样,也是开源漏洞靶场,地址:https://github.com/vulhub/vulhub 环境搭建过程如下: 1. 下载和安装Ubuntu 16.04镜像,镜像地址:htt ...

  9. 【Django学习笔记】-环境搭建

    对于初学django新手,根据以下步骤可以快速进行Django环境搭建 虚拟环境创建 使用virtualenv创建并启用虚拟机环境 ,关于virtualenv可参考https://www.yuque. ...

  10. go 学习笔记之环境搭建

    千里之行始于足下,开始 Go 语言学习之旅前,首先要搭建好本地开发环境,然后就可以放心大胆瞎折腾了. Go 的环境安装和其他语言安装没什么特别注意之处,下载安装包下一步下一步直到完成,可能唯一需要注意 ...

随机推荐

  1. 1,EasyNetQ-链接到RabbitMQ

    一.链接到RabbitMQ 1,创建连接 注意不能有空格 var bus = RabbitHutch.CreateBus(“host=myServer;virtualHost=myVirtualHos ...

  2. Win7无法添加用户的问题

    这段时间搞dcom的东西,然后按照网上说的,用dcomcnfg打开管理器,在dcom中我的电脑里面属性中把默认身份验证级别改为 无.然后再使用的时候,发现win7中的账户管理里面,什么账户都没有了,不 ...

  3. P4811 C’s problem(c)

    P4811 C’s problem(c)From: admin 时间: 1000ms / 空间: 65536KiB / Java类名: Main 背景 清北NOIP春季系列课程 描述 题目描述 小C是 ...

  4. 2013-2014 ACM-ICPC, NEERC, Southern Subregional Contest Problem L. Stock Trading Robot 水题

    Problem L. Stock Trading Robot 题目连接: http://www.codeforces.com/gym/100253 Description CyberTrader is ...

  5. Who is YaoGe.(搞笑篇)

      耀哥是google的大牛.主持google各种牛逼分布式系统的设计,比方Mapreduce之类的,关于大神的传说,如同春哥一样多,当然,有些传说仅仅有程序猿能明确! 耀哥当初面试Google时.被 ...

  6. 从零开始部署CAS服务器

    从0开始部署CAS服务器的操作过程文档,我已经整理完毕,一共分为8步,这8步都是我自己操作实践过的. Setp1:Ubuntu server安装 在virtual box中安装ubuntu serve ...

  7. SimpleUpdater.NET

    本类库+工具用于快速实现一个简单的自动更新程序,旨在快速简单地为现有的.Net应用程序添加上比较简单的自动更新功能. 本页包含以下内容 概述 整个自动升级工作的流程 更新包生成工具 发布更新包 为应用 ...

  8. ICO如此疯狂为哪般?

    编者语: 独角兽一词起源于硅谷,是投资行业,尤其是风险投资业的术语,指的是那些估值超过十亿美元的创业公司.独角兽凤毛麟角,占创业公司总数的0.1%都不到.鑫根资本认为,一个独角兽能达到如此估值,肯定是 ...

  9. python脚本后台执行

    在Linux中,可以使用nohup将脚本放置后台运行,如下: nohup python myscript.py params1 > nohup.out 2>&1 & 1 但 ...

  10. delphi DockPresident

    作为Delphi的忠实用户,我想大家对Delphi中的停靠窗体应该比较熟悉吧,是不是也希望自己编的程序也具有这样的功能?使她看起来更漂亮,更专业,更方便. 本人做的一套停靠控件DockPresiden ...