(2.1)windows下Nutch1.7的安装
酒店评论情感分析系统(二)——Nutch安装
一、需求部分
- Nutch是Java开发的所以需要下载Java JDK。
下载地址http://java.sun.com/javase/downloads/index.jsp
2. Nutch的演示搜索页面是Jsp的,需要Tomcat做服务器。
下载地址:http://jakarta.apache.org/tomcat/
3. Nutch的脚本都是用Linux的Shell写的,所以在Windows平台需要一个Shell解释程序。Cygwin是一个在Windows下的模拟Linux系统程序。(注Linux下不需要下载此程序)
下载地址:http://www.cygwin.com/
4. Nutch下载地址:http://lucene.apache.org/nutch/
二、环境
- 操作系统:windows7,X86,32位
- Java JDK1.6
- Tomcat 7.0
- Cygwin2.850
- Nutch1.7
三、安装步骤
1. Java JDK安装
注意:路径名称不要带中文,建议所选择的路径不要有空格,我第一次选择的路径带有空格C:\Program Files,执行crawl命令的时候产生了错误:
提示找不到C:\Program目录,出现这个问题的原因是因为:C:\Program Files\ 中间有一个空格,这样导致进入不到Program Files ,而只能进入Program中,但是C盘中没有Program文件夹。
安装完成后设置环境变量,win7下设置环境变量和XP不同,在系统变量或者用户变量都行。假定你的jdk安装在c:\jdk1.6,则做如下配置:
JAVA_HOME=c:\jdk1.6
classpath=. ;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar;(.;一定不能少,因为它代表当前路径)
path=%JAVA_HOME%\bin
变量安装完成后,在运行里输入“cmd”打开命令行,分别输入“java”,“java –version”若显示具体信息而没有报错,则安装成功,如下图:如果没有打印出这句话,你需要仔细检查一下你的配置情况。
2. Tomcat免安装
这里需要注意一个问题:
你需要下载与JDK相配的Tomcat的版本,如下图:
我的jdk版本是1.6,然后之前装Tomcat8.0的时候,配置完路径,点startup.bat的时候出现闪退现象。
将Tomcat解压缩在没有中文的目录下,设置环境变量:
(1) 变量名: TOMCAT_HOME 变量值:
H:\tomcat7.0(Tomcat解压到的目录)
(2) 变量名: CATALINA_HOME 变量值:
H:\tomcat7.0
(3)修改变量: Path 变量值:
在末尾添加如下内容 ;%CATALINA_HOME%\bin;%CATALINA_HOME%\lib
运行Tomcat7.0,“开始”->“运行”->输入cmd,进入如下路径
在命令提示符中输入 startup.bat,之后会弹出tomcat命令框,输出启动日志;
然后打开浏览器输入http://localhost:8080/ ,如果进入tomcat欢迎界面,那么恭喜你,配置成功。
Tomcat的运行和停止的文件分别是startup.bat和shutdown.bat。
3. Cygwin安装
运行安装程序后出现如下图:
可以随便选择一个网址:
这一步,我们选择需要下载安装的组件包,为了使我们安装的Cygwin能够编译程序,我们需要安装gcc编译器,默认情况下,gcc并不会被安装,我们需要选中它来安装。为了安装gcc,我们用鼠标点开 组件列表中的“Devel”分支,在该分支下,有很多组件,我们必须的是:
binutils 、gcc 、gcc-mingw 、gdb
Binutils组件:
Gcc组件:
Gdb组件:
Gcc-mingw组件:
选完之后,选择下一步:
安装的时间依据你选择的组件以及网络情况而定。
4. Nutch安装
Nutch是一个Java实现的web爬虫,爬取的结果存储到database(指定文件路径下的一系列文件及目录)供Solr或Lucene索引和检索。
常见搜索相关的框架的基本功能列表:
|
爬取 |
索引 |
检索 |
|
|
Nutch |
√ |
||
|
Solr |
√ |
√ |
|
|
Lucene |
√ |
√ |
下载安装apache-nutch-1.7-bin.zip并设置。下载地址:http://archive.apache.org/dist/nutch/
下载完成后解压缩Nutch二进制分发包,(我解压缩在:H:\nutch\nutch1.7)目录如下:
l bin目录,只包含一个可执行文件nutch
l conf目录,nutch命令执行的配置参数
l docs目录,JavaDoc帮助
l lib目录,相关Jar类库
l plugins目录,相关插件库
设置环境变量:
变量名 NUTCH_JAVA_HOME
变量值 %JAVA_HOME% 【其值设为JDK的安装目录】
运行Cygwin,进入到nutch1.7所在的解压缩路径下,在输入bin/nutch,如图:
Nutch安装成功。
(2.1)windows下Nutch1.7的安装的更多相关文章
- 2分钟 windows下sublime text 3安装git插件:
12:35 2015/11/182分钟 windows下sublime text 3安装git插件:推荐博客:http://blog.csdn.net/naola2001/article/detail ...
- 纯windows下制作变色龙引导安装U盘教程
原创教程:纯windows下制作变色龙引导安装U盘教程 支持Mavericks和Yosemite 支持白苹果 目标:windows下制作带 Chamelon变色龙引导的黑苹果安装U盘,支持PC机引导安 ...
- Windows下Oracle 11g的安装
Windows下Oracle 11g的安装 Windows下Oracle 11g的安装: Windows:64位, Oracle 11g版本:win64_11gR2_database_1of2(安装包 ...
- windows下,下载pip安装
windows下,下载pip安装 https://pypi.python.org/pypi/pip#downloads 找到source那个压缩文件,下载下来解压. 参考: windows下面安装Py ...
- Lua在Windows下的配置、安装、运行
Windows下安装.运行Lua! 本文提供全流程,中文翻译.Chinar坚持将简单的生活方式,带给世人!(拥有更好的阅读体验 -- 高分辨率用户请根据需求调整网页缩放比例) 1↓ 进入Lua官网:h ...
- Windows下openssl的下载安装和使用
Windows下openssl的下载安装和使用 安装openssl有两种方式,第一种直接下载安装包,装上就可运行:第二种可以自己下载源码,自己编译.下面对两种方式均进行详细描述. 一.下载和安装ope ...
- Windows下Apache2.2+PHP5安装步骤
Windows下Apache2.2+PHP5安装 初学者在学习PHP的时候可能都会遇到安装Apache和PHP不成功的问题,于是很多开发者便选择了集成包,一键安装好Apache+PHP+MySQL.但 ...
- python学习:Windows 下 Python easy_install 的安装
Windows 下 Python easy_install 的安装 下载安装python安装工具下载地址:http://pypi.python.org/pypi/setuptools 可以找到 ...
- Windows下的Linux子系统安装,WSL 2下配置docker
Windows下的Linux子系统安装,WSL 2下配置docker 前提条件: 安装WSL 2需要Windows 10版本是Build 18917或更高,首先先确认系统版本已升级. 在“启用或关闭W ...
随机推荐
- EXT4+Struts2 JSON的问题
ERROR : Class org.apache.struts2.json.JSONWriter can not access a member of class org.springframewor ...
- HDU 5172 GTY's gay friends 线段树+前缀和+全排列
题目链接: hdu: http://acm.hdu.edu.cn/showproblem.php?pid=5172 bc(中文):http://bestcoder.hdu.edu.cn/contest ...
- 免费各种查询API接口
快递查询 http://www.kuaidi100.com/query?type=quanfengkuaidi&postid=390011492112 (PS:快递公司编码:申通"s ...
- Linux下修改环境变量PATH
1.什么是环境变量(PATH) 在Linux中,在执行命令时,系统会按照PATH的设置,去每个PATH定义的路径下搜索执行文件,先搜索到的文件先执行. 我们知道查阅文件属性的指令ls 完整文件名为:/ ...
- HDU4258_Covered Walkway
题目是一个很典型的斜率优化的题目.题意就不说了. 是这样的,对于双端优先队列,我们共有队首和队尾两个删除操作,来保证对于任意一个i,第一个元素都是最优的. 我们把dp的转移方程列出来就直达其状态为f[ ...
- jquery 添加与删除的规律 当要添加时候要定位到自己的父元素 当要删除时候 通过事件函数传入的this找到自己的父元素进行删除
jquery 添加与删除的规律 当要添加时候要定位到自己的父元素 当要删除时候 通过事件函数传入的this找到自己的父元素进行删除
- BZOJ 2109 航空管制(拓扑排序+贪心)
绝世好题啊.. 题意:给出一个DAG,和每个点要求出现在这个DAG里面的拓扑排序的位置<=ti,求出所有可能的拓扑排序里面每个点出现的位置的最小值. 正着做不好做,考虑反着做,建立这个图的反图. ...
- 转---秒杀多线程第十四篇 读者写者问题继 读写锁SRWLock
在<秒杀多线程第十一篇读者写者问题>文章中我们使用事件和一个记录读者个数的变量来解决读者写者问题.问题虽然得到了解决,但代码有点复杂.本篇将介绍一种新方法——读写锁SRWLock来解决这一 ...
- BZOJ4974 字符串大师(kmp)
显然最短循环节长度=i-next[i],则相当于给定next数组构造字符串.然后按照kmp的过程模拟即可.虽然这看起来是一个染色问题,但是由图的特殊性,如果next=0只要贪心地选最小的就可以了,稍微 ...
- 洛谷 P2647 最大收益
我是题面 恩,贪心,鉴定完毕. 一个物品是否放进来,取决于它是否能对答案做出贡献. 那物品i的贡献就是\(w[i]-r[i]\) 可是收益的减少是会叠加的 那就是\(w[i]-j*r[i]\),j表示 ...