nutch-2.2.1 hadoop-1.2.1 hbase-0.92.1 集群部署

国内私募机构九鼎控股打造APP，来就送 20元现金领取地址：http://jdb.jiudingcapital.com/phone.html
内部邀请码：C8E245J （不写邀请码，没有现金送）
国内私募机构九鼎控股打造，九鼎投资是在全国股份转让系统挂牌的公众公司，股票代码为430719，为“中国PE第一股”，市值超1000亿元。

------------------------------------------------------------------------------------------------------------------------------------------------------------------

原文地址： http://www.cnblogs.com/i80386/p/3540389.html

参考网站：
http://blog.csdn.net/weijonathan/article/details/10178919 一个完整的部署过程，只是版本有所区别
http://m.blog.csdn.net/blog/WeiJonathan/9251597 杨尚川的博客（nutch 分布式运行）
http://qindongliang1922.iteye.com/blog/1977053 三劫散仙博客（如何部署hbase）
http://wiki.apache.org/nutch/Nutch2Tutorial 官网

一：nutch2.x与nutch1.x的主要区别：数据访问层的抽象
nutch 2.x----gora-core-0.3----gora-hbase----hbase

gora-core-0.3	apache-gora提供了对nosql访问的统一接口。（注解：在上述链接里可以看到对其他数据库的支持）
gora-hbase	针对hbase实现了gora的接口

:
有了这两步nutch2.x就可以运行在Hbase上了。
支持nosql的优势：
当获取了外链要进行url排重的时候，以前基于hdfs的时候是读取之前全部的url用mapreduce实现排重（好沉重的赶脚），支持了nosql只需要一步查找即可。

二：准备材料

hadoop-1.2.1	http://archive.apache.org/dist/hadoop/core/hadoop-1.2.1/hadoop-1.2.1.tar.gz
hbase-0.92.1	http://archive.apache.org/dist/hbase/hbase-0.92.1/hbase-0.92.1.tar.gz
nutch-2.2.1	http://archive.apache.org/dist/nutch/2.2.1/apache-nutch-2.2.1-src.tar.gz

使用wget下载。

三：安装hadoop（略）
我这里做了2个机器的hadoop集群，如下所示：

192.168.2.51	Master.Hadoop
192.168.2.52	Slave1.Hadoop

四：安装Hbase（第一次配置简单点，使用自带的zookeeper）
将hbase拷贝到Hadoop根目录下参考命令：

cp hbase-0.92..tar.gz /home/hadoop-1.2./ （之所以这样做可以方便以后扩展hadoop集群，直接scp就行了）

解压并重命名参考命令：

tar -zxvf hbase-0.92..tar.gz

mv hbase-0.92. hbase

cd hbase

修改 hbase-env.sh，参考配置：

# The java implementation to use. Java 1.6 required.

# export JAVA_HOME=/usr/java/jdk1.6.0/

export JAVA_HOME=/usr/java/jdk 注解：设置java_home

export HBASE_CLASSPATH=/home/hadoop-1.2./conf

export HBASE_MANAGES_ZK=true

...

# The directory where pid files are stored. /tmp by default.

export HBASE_PID_DIR==/home/hadoop-1.2./hbase/pids (注解：这个最好不要采用默认，放在/tmp很不安全，有可能被误删）

修改hbase-site.xml,参考配置：

<configuration>

　　<property>

　　　　<name>hbase.cluster.distributed</name>

　　　　<value>true</value>

　　</property>

　　<property>

　　　　<name>hbase.rootdir</name>

　　　　<value>hdfs://Master.Hadoop:9000/hbase</value> // 注解：这里与hadoop的hdfs建立了联系，如果你hadoop dfs -ls 发现没有hbase这个文件夹，

　　</property> 运行：hadoop dfs -ls /hbase

　　<property>

　　　　<name>hbase.master</name>

　　　　<value>192.168.2.51:60000</value>

　　</property>

　　<property>

　　　　<name>hbase.zookeeper.quorum</name>

　　　　<value>192.168.2.52</value>

　　</property>

</configuration>

vim regionservers 参考配置：

192.168.2.51

192.168.2.52

hadoop版本一致化：(版本不一致会出现异常）

cp /home/hadoop-1.2./hadoop-core-1.2..jar /home/hadoop-1.2./hbase/lib/

并删除hbase自带的hadoop版本。

将配置好的hbase拷贝到slave节点（192.168.2.52)

cd /home/hadoop-1.2.

scp -r hbase root@192.168.2.52:/home/hadoop-1.2./

启动hbase

cd /home/hbase/

bin/start-hbase.sh

启动成功，运行jps命令：

 Resin

 HMaster

 NameNode

 JobTracker

 SecondaryNameNode

 Jps

 HRegionServer

其中HMaster即hbase的主进程。

五：安装nutch
解压（注：这个不需要解压到hadoop根目录，因为nutch是才操作hadoop的，在master上有就可以了）

cd /home/

tar -zxvf apache-nutch-2.2.-src.tar.gz //将nutch解压到home下

vim /home/nutch-2.2./ivy/ivy.xml

将此行的注释去掉 <dependency org="org.apache.gora" name="gora-core" rev="0.3" conf="*->default"/>
将hbase-site.xml拷贝到nutch的配置文件（建立与hbase的联系？？？）
ant 注解：编译过程很慢，会去加载大量的jar包。
注入种子：

mkdir urls

vim seed.txt

http://news.163.com/

http://www.gov.cn/

http://www.sbsm.gov.cn/

http://news.stnn.cc/china/

http://www.zaobao.com/wencui/social

http://www.xinhuanet.com/politics/1.htm

http://news.china.com.cn/shehui/node_7185045.htm

上传的hdfs,完成种子url的注入

hadoop dfs -put urls urls

修改采集规则：

regex-urlfilter.txt

# accept anything else

+^http://news.163.com/

+^http://www.sbsm.gov.cn/

+^http://www.gov.cn/

+^http://news.stnn.cc/china/

+^http://www.zaobao.com/wencui/social

+^http://www.xinhuanet.com/politics

+^http://news.xinhuanet.com/politics/\d+-\d+/\d+/c_\d+.htm

+^http://news.china.com.cn/\d+-\d+/\d+/content_\d+.htm

+^http://news.china.com.cn/shehui/node_\d+(_\d+)?.htm

注解：conf 下面的配置文件都会被打包到ant后生成的job文件中，所以这里要提前修改（以后要是要注入新的采集规则需要解压job文件修改）
修改配置（集群环境运行）

cd runtime/deploy

unzip -d apache-nutch-2.2. apache-nutch-2.2..job

rm apache-nutch-2.2..job

cd apache-nutch-2.2.

rm lib/hbase-***.jar

cp /home/hadoop-1.2./hbase/hbase-0.92..jar lib

zip -r ../apache-nutch-2.1.job ./*

cd ..

rm -r apache-nutch-2.1

运行命令：

cd runtime/deploy/bin

vim nutch 阅读shell发现：

# figure out which class to run

if [ "$COMMAND" = "crawl" ] ; then

class="org".apache.nutch.crawl.Crawler

发现crawl命令运行Crawler类

vim org.apache.nutch.crawl.Crawler （参考这个命令找到那个Crawler类）

得到命令格式为：

System.out.println("Usage: Crawler (<seedDir> | -continue) [-solr <solrURL>] [-threads n] [-depth i] [-topN N] [-numTasks N]");

cd /runtime/deploy

于是运行如下命令：

bin/nutch crawl urls -topN  -depth

如果运气足够好，你会在Hbase shell 后 list 后发现一个 'webpage' 表

附本人配置时候设置的 /etc/profile:

#java

export JAVA_HOME=/usr/java/jdk

export PATH=$JAVA_HOME/bin:$PATH

export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

#hadoop

export HADOOP_HOME=/home/hadoop-1.2.

export PATH=$PATH:$HADOOP_HOME/bin

#zookeeper

export ZOOKEEPER_HOME=${HADOOP_HOME}/zookeeper

export PATH=${PATH}:${ZOOKEEPER_HOME}/bin

#hbase

export HBASE_HOME=/home/hadoop-1.2./hbase

export PATH=$PATH:$HBASE_HOME/bin

export CLASSPATH=$CLASSPATH:$HBASE_HOME/lib

#nutch 2.2

export NUTCH_HOME=/home/hadoop-1.2./nutch/runtime/local

nutch-2.2.1 hadoop-1.2.1 hbase-0.92.1 集群部署的更多相关文章

Hadoop数据分析平台项目实战(基于CDH版本集群部署与安装)
1.Hadoop的主要应用场景: a.数据分析平台. b.推荐系统. c.业务系统的底层存储系统. d.业务监控系统. 2.开发环境:Linux集群(Centos64位)+Window开发模式(win ...
Hadoop 2.6.0 集群部署
Hadoop的集群部署和单节点部署类似,配置文件不同,另外需要修改网络方面的配置首先,准备3台虚拟机,系统为CentOS 6.6,其中一台为namenode 剩余两台为 datanode: 修改主机 ...
基于Hadoop 2.2.0的高可用性集群搭建步骤（64位）
内容概要: CentSO_64bit集群搭建, hadoop2.2(64位)编译,安装,配置以及测试步骤新版亮点: 基于yarn计算框架和高可用性DFS的第一个稳定版本. 注1:官网只提供32位re ...
Hadoop实战：Hadoop分布式集群部署（一）
一.系统参数优化配置 1.1 系统内核参数优化配置修改文件/etc/sysctl.conf,使用sysctl -p命令即时生效. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 ...
Hadoop系列之（二）：Hadoop集群部署
1. Hadoop集群介绍 Hadoop集群部署,就是以Cluster mode方式进行部署. Hadoop的节点构成如下: HDFS daemon: NameNode, SecondaryName ...
Hadoop(HA)分布式集群部署
Hadoop(HA)分布式集群部署和单节点namenode部署其实一样,只是配置文件的不同罢了. 这篇就讲解hadoop双namenode的部署,实现高可用. 系统环境: OS: CentOS 6.8 ...
Hadoop分布式集群部署(单namenode节点)
Hadoop分布式集群部署系统系统环境: OS: CentOS 6.8 内存:2G CPU:1核 Software:jdk-8u151-linux-x64.rpm hadoop-2.7.4.tar. ...
Hadoop教程(五)Hadoop分布式集群部署安装
Hadoop教程(五)Hadoop分布式集群部署安装 1 Hadoop分布式集群部署安装在hadoop2.0中通常由两个NameNode组成,一个处于active状态,还有一个处于standby状态 ...
Hadoop及Zookeeper+HBase完全分布式集群部署
Hadoop及HBase集群部署一. 集群环境系统版本虚拟机:内存 16G CPU 双核心系统: CentOS-7 64位系统下载地址: http://124.202.164.6/files ...
Hadoop记录-Apache hadoop+spark集群部署
Hadoop+Spark集群部署指南 (多节点文件分发.集群操作建议salt/ansible) 1.集群规划节点名称主机名 IP地址操作系统Master centos1 192.168.0.1 C ...

随机推荐

ADB Offline
终极可能原因:版本太旧 http://stackoverflow.com/questions/14993855/android-adb-device-offline-cant-issue-comman ...
python 传入参数返回的时候好像有些时候会出现莫名其妙的循环
def handle_field(name, s_len, s): #some code #return s would error but return not.... #return s for ...
配置apache以fastcgi运行php
apache默认是用自带的mod_php模块运行php,现在我们介绍使用fastcgi来执行php脚本.先说下fastcgi的优点: Fastcgi的优点: 从稳定性上看, fastcgi是以独立的进 ...
[Everyday Mathematics]20150228
试证: $$\bex \int_0^\infty \sin\sex{x^3+\frac{\pi}{4}}\rd x =\frac{\sqrt{6}+\sqrt{2}}{4}\int_0^\infty ...
FreeMarker笔记第四章其它
4.1 自定义指令 4.1.1 简介自定义指令可以使用macro指令来定义.Java程序员若不想在模板中实现定义指令,而是在Java语言中实现指令的定义,这时可以使用freemarker.templ ...
Struts2注解特别注意
1 Struts2注解的作用使用注解可以用来替换struts.xml配置文件!!! 2 导包必须导入struts2-convention-plugin-2.3.15.jar包,它在struts2安 ...
WebGoat学习——跨站脚本攻击(Cross‐Site Scripting (XSS)）
跨站脚本攻击(Cross‐Site Scripting (XSS)) XSS(Cross Site Script)跨站脚本攻击.是指攻击者向被攻击Web 页面里插入恶意html代码,当用户浏览该页之时 ...
一起刷LeetCode5-Longest Palindromic Substring
发现自己原来掌握的一下算法,都忘掉了,啊啊啊 ----------------------------------------------------------------------------- ...
JAVA分析html算法(JAVA网页蜘蛛算法)
近来有些朋友在做蜘蛛算法,或者在网页上面做深度的数据挖掘.但是遇到复杂而繁琐的html页面大家都望而却步.因为很难获取到相应的数据. 最古老的办法的是尝试用正则表达式,估计那么繁琐的东西得不偿失,浪费 ...
【boost】使用装饰者模式改造boost::thread_group
在项目中使用boost::thread_group的时候遇到几个问题: 1.thread_group不提供删除全部thread列表的方法,一直使用create会是其内部列表不断增加. 2.thread ...

nutch-2.2.1 hadoop-1.2.1 hbase-0.92.1 集群部署

nutch-2.2.1 hadoop-1.2.1 hbase-0.92.1 集群部署的更多相关文章

随机推荐

热门专题