Ubuntu12搭建nutch1.2+tomcat7+jdk1.6

所用软件:jdk-6u24-linux-i586.bin

apache-tomcat-7.0.27.tar.gz

apache-nutch-1.2-bin.tar.gz

(注:我的文档很多复制cp 指令是在root权限下进行,所以修改权限。如果在ubuntu一般用户权限下进行复制指令,则不用修改权限)

一、安装jdk

1、把所用到的软件拷进 /home/ubuntu  路径下,即主文件夹下

2、在 /mnt  路径下建立tool文件夹,并把tool变为一般用户权限

cd /mnt

mkdir tool

chown –R ubuntu:ubuntu tool

3、进入tool文件,并建立java 文件夹,改为一般用户权限

cd tool

mkdir java

chown –R ubuntu:ubuntu java

4、把jdk拷进/mnt/tool/java路径下,并进行解压

cd java

cp /home/ubuntu/jdk-6u24-linux-i586.bin/mnt/tool/java

sudo sh jdk-6u24-linux-i586.bin

chown –R ubuntu:ubuntu jdk1.6.0_24

5、配置jdk环境变量

sudo gedit /etc/environment

打开文件后添加PATH中添加 /mnt/tool/java/jdk1.6.0_24/bin

export JAVA_HOME=/mnt/tool/java/jdk1.6.0_24

export JRE_Home=/mnt/tool/java/jdk1.6.0_24/jre

export CLASSPATH=$CLASSPATH:$JAVA_HOME/bin:$JAVA_HOME/jre/lib

配置第二个文件

Sudo gedit /etc/profile

在root 权限进行验证

java -version

自己可以再验证 java和javac 命令。正常则安装成功

二、安装tomcat

1、在/mnt/tool 路径下新建文件夹 Tomcat,并把apache-tomcat-7.0.27.tar.gz拷进去进行解压

cd /mnt/tool

mkdir Tomcat

chown –R ubuntu:ubuntu Tomcat

cd Tomcat

cp /home/ubuntu/apache-tomcat-7.0.27.tar.gz/mnt/tool/Tomcat

2、进入Tomcat路径,更改文件名,并修改权限,删除原来压缩包

chown –R ubuntu:ubuntu apache-tomcat-7.0.27

mv apache-tomcat-7.0.27tomcat7

rm –rf apache-tomcat-7.0.27.tar.gz

3、进入bin路径,配置catalina.sh文件

cd tomcat7/bin

sudo gedit catalina.sh

在cygwin=false上面添加

JAVA_HOME=/mnt/tool/java/jdk1.6.0_24

JAVA_OPTS="-server -Xms512m -Xmx1024m -XX:PermSize=600M -XX:MaxPermSize=600m -Dcom.sun.management.jmxremote"

4、配置 environment文件

sudo gedit /etc/environment

5、启动,进入/mnt/tool/Tomcat/tomcat7/bin路径,启动tomcat

./startup.sh

打开浏览器输入  http://localhost:8080/

Tomcat 安装成功

三、安装nutch

1、把nutch-1.2拷进 /mnt/tool 下,并对其解压

cp /home/ubuntu/apache-nutch-1.2-bin.tar.gz /mnt/tool

2、更改权限并删除原压缩包

Chown –R ubuntu:ubuntu nutch-1.2

rm –rf apache-nutch-1.2-bin.tar.gz

3、在 nutch-1.2 下新建一个 weburls.txt,输入内容http://www.taobao.com

cd nutch-1.2

vi weburls.txt

4、修改crawl-urlfilter.txt 中参数

图形操作就行,进入/mnt/tool/nutch-1.2/conf/crawl-urlfilter.txt,改为

MY.DOMAIN.NAME  改为  taobao.com

改为

5、进入 /mnt/tool/nutch-1.2/conf /  修改nutch-site.xml 如下

6、运行网络蜘蛛,抓取网页

进入/mnt/tool/nutch-1.2 运行

bin/nutch crawl weburls.txt -dir localweb -depth 2 -topN 100 -threads 2
     -dir = localweb  指明下载数据存放路径,该目录不存在时,会被自动创建
     -deptch = 2       下载深度为2
     -topN = 100      下载符合条件的前100个页面
     -threads = 2       启动的线程数目
     蜘蛛运行时会输出大量数据,抓取结束之后,可以发现localweb目录被生成,里面有几个目录。

更改权限  localweb和logs是新生成文件夹

完成,看看/mnt/tool/nutch-1.2/localweb 下生产的 五个文件夹

7、在tomcat中部署nutch 项目,把nutch根目录下的nutch-1.2.war拷贝到tomcat下webapps中,稍会tomcat会对其自动解压

cp /mnt/tool/nutch-1.2/nutch-1.2.war/mnt/tool/Tomcat/tomcat7/webapps

修改权限

8、修改7中目录下的 、WEB-INF/classes/nutch-site.xml 文件

9、修改tomcat7目录下的server.xml文件

10、重启tomcat

在/mnt/tool/Tomcat/tomcat7/bin

输入sudo./shutdown.sh

sudo ./startup.sh

四、观察结果

在地址栏输入  localhost:8080/nutch-1.2

输入 教育,显示如下

再测试一个,输入  要啥自行车,显示如下:

至此,jdk1.6+tomcat7+nutch1.2安装配置完毕。

Ubuntu12搭建nutch1.2+tomcat7+jdk1.6的更多相关文章

  1. MyEclipse10 Tomcat7 JDK1.7 配置

    第一步.MyEclipse10 Tomcat7 JDK1.7下载 MyEclipse10http://downloads.myeclipseide.com/downloads/products/ewo ...

  2. tomcat7+jdk1.8一键安装脚本

    #!/bin/bash #--------------------------------------------------------------------- # # Author : 大象无形 ...

  3. jenkins之Tomcat7+jdk1.7+jenkins

    目的 在开发中,需要经常频繁的对测试服务器进行部署,而且在多人协同中开发经常遇到的问题就是别人更新了他的代码,而你去更新你的代码时并没有更新到别人的代码,导致测试环境的代码不是最新,当然这个问题也好解 ...

  4. RAD6.0+EJB+WEBSPHERE+JNDI转eclipse+TOMCAT7+JDK1.7+JNDI+SPRING修改总计

    ##########################1.去除ejb################################################################### ...

  5. ubuntu12.04 64位系统配置jdk1.6和jdk-6u20-linux-i586.bin下载地址

    1:下载地址http://code.google.com/p/autosetup1/downloads/detail?name=jdk-6u20-linux-i586.bin&can=2&am ...

  6. Linux 下 Solr的搭建与使用(建议jdk1.8以上)

    官方表示solr5之后的版本不再提供对第三方容器的支持(不提供war包了). “旧式”solr.xml格式不再支持,核心必须使用core.properties文件定义. 使用第三方容器的需要自己手动修 ...

  7. ubuntu12.04 安装和配置jdk1.7

    第一步:下载jdk-7-linux-i586.tar.gz wget -c http://download.oracle.com/otn-pub/java/jdk/7/jdk-7-linux-i586 ...

  8. Nutch1.2 的安装与使用

    Nutch1.2的安装与使用 1.nutch1.2下载    下载地址 http://archive.apache.org/dist/nutch/     2.nutch1.2目录   bin:用于命 ...

  9. ssm框架基础搭建

    1项目搭建环境  windows10+eclipse4.8+tomcat7+jdk1.7 2.使用maven搭建 1)首先eclipse配置好maven环境 2)file--new--other 3) ...

随机推荐

  1. PAT 1050 螺旋矩阵(25)(代码)

    1050 螺旋矩阵(25)(25 分) 本题要求将给定的N个正整数按非递增的顺序,填入"螺旋矩阵".所谓"螺旋矩阵",是指从左上角第1个格子开始,按顺时针螺旋方 ...

  2. (O)JS:执行环境、变量对象、活动对象和作用域链(原创)

    var a=1; function b(x){ var c=2; console.log(x); } b(3); ·执行环境(execution context),也称为环境.执行上下文.上下文环境. ...

  3. 【原创】DOTNET动态调试破解Spoon,及MSI安装包文件替换技术

    提到Spoon可能大家还会感到陌生,但是如果提及XenoCode那么研究过DOTNET的人应该都知道吧.Spoon的前身就是XenoCode,虽然没有了PostBuild这个混淆软件,但是虚拟化技术仍 ...

  4. ​零基础该如何学习UI设计

    ​零基础学习该如何学习UI设计,没有基础该怎么开始学习呢?UI设计可以说是入行门槛很低的职业了,而且随着互联网的快速发展,UI设计的市场前景也越来也好,更多的人看到了这个高薪的行业也开始心动了,想要在 ...

  5. 繁体简体转化_langconv.py

    from copy import deepcopyimport re try: import psyco psyco.full()except: pass try: from zh_wiki impo ...

  6. PDF下载网

    http://www.java1234.com/a/javabook/javaweb/2018/1103/12297.html

  7. iframe高度自适应实现方案

    iframe高度动态自适应,一直是个头疼的问题,今天我们从事件监听这个角度,来实现iframe高度实时更新. 方案一:监听iframe体的点击事件 <iframe src="casca ...

  8. RSS工具关注期刊,方便快速获取及时大量的文献信息

    第一步: 第二步: 第三步: RSS : 很好的一个东西,到了中国,咋就水土不服了呢...

  9. gunicorn配置文件

    最近使用gunicorn部署,感觉用命令参数方式启动比较繁琐,而且有时候就忘了以前怎么设置的了.一笑... 上stackoverflow查了查,找到了一个官方示例,在这里. 官方解释在这里. 记在这里 ...

  10. 使用UIkit的uk-form-icon后input框无法输入的问题

    相关版本UIkit2.27.5 uikit.min.css默认使用uk-form-icon的属性pointer-events: none:因此表框无法点击. <style type=text/c ...