系统:ubuntu14.04

一、hadoop安装

ssh免密码登陆详情见上一篇博客。

解压hadoop1.2.1到某个目录下,这里解压到ubuntu下载目录下(注意没必要使用管理员权限)

在hadoop1.2.1 conf目录下的core-site.xml添加一下内容:

<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
</property> <property>
<name>hadoop.tmp.dir</name>
<value>/home/你的用户名/下载/hadoop-1.2./hadoop_tmp</value>
</property>
</configuration>

在hdfs-site.xml中添加一下内容:

<configuration>
<property>
<name>dfs.replication</name>
<value></value>
</property>
</configuration>

在mapre-site.xml中添加以下内容:

<configuration>
<property>
<name>mapred.job.tracker</name>
<value>localhost:</value>
</property>
</configuration>

在hadoop-env.sh中找到JAVA_HOME这一行,然后填写上你自己的java路径。

如果你已经设置好了ssh免密码登陆,那么就可以进去到hadoop目录下用bin/start-all.sh来启动伪分布式hadoop了。如果你想在任意目录下都可以使用hadoop命令则需要在/etc/profile中配置以下内容:

export HADOOP_HOME =hadoop安装路径
export PATH=在末尾添加:$HADOOP_HOME/bin

要启动hadoop,第一次先格式化namenode,命令为hadoop namenode -format

二、hbase

使用的hbase为hbase-0.90.4,同样解压到下载目录下。

然后配置conf目录下的hbase-site.xml,添加以下内容:

<configuration>

  <property>
<name>hbase.rootdir</name>
<value>hdfs://localhost:9000/hbase</value>
</property> <property>
<name>hbase.cluster.distributed</name>
<value>true</value>
</property> <property>
<name>hbase.zookeeper.quorum</name>
<value>localhost</value>
</property> </configuration>

同样在hbase-env.sh中找到JAVA_HOME,然后添加上自己的JAVA配置路径。

同时需要找到HBASE_MANAGES_ZK这一行,把后面的值设置为true。

接着替换jar包,使用以下命令:

rm /home/hadoop/hbase-0.90./lib/hadoop-core-0.20-append-r1056497.jar

cp /home/hadoop/hadoop-1.2./hadoop-core-1.2..jar /home/hadoop/hbase-0.90./lib

cp /home/hadoop/hadoop-1.2./lib/commons-collections-3.2..jar /home/hadoop/hbase-0.90./lib

cp /home/hadoop/hadoop-1.2./lib/commons-configuration-1.6.jar /home/hadoop/hbase-0.90./lib

路径要根据你们自己的路径来配置,主要就是把hbase中lib文件夹下的三个依赖hadoop的jar包替换为我们安装的hadoop-1.2.1的jar包。(ps:看路径最好进入到文件夹下右键用属性看具体路径)

同样在/etc/profile中需要设置一下HBASE_HOME,然后再PATH后面加上HBASE_HOME/bin。

至此,hbase配置完成,在hadoop启动的前提下,启动hbase ,命令:bin/start-hbase.sh(ps:启动hbase前必须启动hadoop,关闭hadoop前先关闭hbase,因为hbase是基于hadoop 的)

启动完成后用jps查看, 如果看到的是9个进程那就对了。

三、es安装

下载es就不说了。同样在下载目录下解压,解压后就完成了安装了~~~~~就是这么简单。

不过一般需要安装head插件和其他扩展 插件,可以自行百度,这里不在讲解。

进入到elasticsearch目录下,bin/elasticsearch启动es,然后用curl命令查看是否成功(没有curl命令的需要安装,sudo apt-get install curl)

curl -XGET 'localhost:9200/_cluster/health?pretty'

此条命令查看es是否成功启动,如果执行完后返回一组字符代表启动成功。

四、nutch2.2.1安装

此处可能会出比较多的问题。

下载解压后,先首先修改一个源码:

进入src/java/org/apache/nutch/crawl目录,修改GeneratorJob.java中的public Map<String,Object> run(Map<String,Object> args) 方法。

// generate batchId
 int randomSeed = Math.abs(new Random().nextInt());  
 String batchId = (curTime / 1000) + "-" + randomSeed;  
 getConf().set(BATCH_ID, batchId);   注意放置位置。

把nutch自带的hbase-site.xml 文件替换为我们自己的hbas-site.xml文件

修改nutch-site.xml文件为:

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <!-- Put site-specific property overrides in this file. --> <configuration> <property>
<name>storage.data.store.class</name>
<value>org.apache.gora.hbase.store.HBaseStore</value>
</property>
<property>
<name>http.agent.name</name>
<value>NutchCrawler</value>
</property>
<property>
<name>http.robots.agents</name>
<value>NutchCrawler,*</value>
</property>

在ivy.xml文件中找到以下内容:

<dependency org="org.apache.gora" name="gora-hbase" rev="0.3"
conf="*->default" />
去掉注释即可
同时为了让nutch2.2.1支持es0.90.5,找到这一行:

<dependency org="org.elasticsearch" name="elasticsearch" rev="0.19.4"
conf="*->default"/>

将0.19.4修改为0.90.5


在conf目录下找到gora.properties文件,添加以下内容:

gora.datastore.default=org.apache.gora.hbase.store.HBaseStore

接下来就是ant编译了,如果没有安装ant,请先安装ant。

ant clean

ant runtime

至此,nutch安装成功,可能在ant中会报一个Failed什么错误(忘记了。。。不过具体解决办法就是进入到提示的那个源码中,把小写改为大写即可。)

注:如果要成功连接hbase,最好把/etc/hosts中的127.0.1.1改为当前电脑上网ip,或者是单独设置一个静态ip对应,因为hbase的连接是通过网络进行连接的,不管是内网还是外网。

hadoop1.2.1+hbase0.90.4+nutch2.2.1+elasticsearch0.90.5配置(伪分布式)的更多相关文章

  1. hadoop1.2.1+hbase0.94.11+nutch2.2.1+elasticsearch0.90.5安装配置攻略

    一.背景 最近由于项目和论文的需要,需要搭建一个垂直搜索的环境,查阅了很多资料,决定使用Apache的一套解决方案hadoop+hbase+nutch+es.这几样神器的作用就不多作介绍了,自行参考各 ...

  2. 谁说他们版本不兼容——hadoop1.2.1+hbase0.94.11+nutch2.2.1+el

    一.背景 最近由于项目和论文的需要,需要搭建一个垂直搜索的环境,查阅了很多资料,决定使用Apache的一套解决方案hadoop+hbase+nutch+es.这几样神器的作用就不多作介绍了,自行参考各 ...

  3. Ubuntu环境下Hadoop1.2.1, HBase0.94.25, nutch2.2.1各个配置文件一览

    /×××××××××××××××××××××××××××××××××××××××××/ Author:xxx0624 HomePage:http://www.cnblogs.com/xxx0624/ ...

  4. nutch-2.2.1 hadoop-1.2.1 hbase-0.92.1 集群部署

    国内私募机构九鼎控股打造APP,来就送 20元现金领取地址:http://jdb.jiudingcapital.com/phone.html 内部邀请码:C8E245J (不写邀请码,没有现金送) 国 ...

  5. 伪分布式hadoop1.1.2和hbase0.94.11配置

    Hadoop 1.1.2 和Hbase 0.94.11版本配置 测试时ip  172.19.32.128 这个版本需要把/etc/hosts的aa-vm改成127.0.0.1,也就是和localhos ...

  6. (四)伪分布式下jdk1.6+Hadoop1.2.1+HBase0.94+Eclipse下运行wordCount例子

    本篇先介绍HBase在伪分布式环境下的安装方式,然后将MapReduce编程和HBase结合起来使用,完成WordCount这个例子. HBase在伪分布环境下安装 一.   前提条件 已经成功地安装 ...

  7. Hadoop1 Centos伪分布式部署

    前言:       毕业两年了,之前的工作一直没有接触过大数据的东西,对hadoop等比较陌生,所以最近开始学习了.对于我这样第一次学的人,过程还是充满了很多疑惑和不解的,不过我采取的策略是还是先让环 ...

  8. [转]CentOS下安装伪分布式Hadoop-1.2.1

    From: http://blog.csdn.net/yinan9/article/details/16805275 环境:CentOS 5.10(虚拟机下) [root@localhost hado ...

  9. Ubuntu环境下手动配置ElasticSearch0.90.5

    1 下载elasticsearch-0.90.5 2 修改配置(可选) 修改内存:(可选) bin/elasticsearch.in.sh中: ES_MIN_MEM ES_MAX_MEM 修改搜索引擎 ...

随机推荐

  1. Linux常用命令及使用技巧

    本文重点讲述Linux命令的使用,命令是学习Linux必须熟练掌握的一个部分.Linux下的命令大概有600个,而常用的命令其实只有80个左右,这些常用的命令是需要灵活掌握的.虽然Linux的各个发行 ...

  2. 神坑 关于&&的取值

    a = 0&&"ssss": 结果a=0 a=true&&"w": 结果a=w: 类似于 前面是真的 会执行后面并返回后面 前面 ...

  3. hdu 5612 Baby Ming and Matrix games(dfs暴力)

    Problem Description These few days, Baby Ming is addicted to playing a matrix game. Given a n∗m matr ...

  4. c++之 变量

    变量的基本操作 变量就是一个可以变化的量,变量由变量类型.变量名.初始值(可选)组成,例如: int abc = 10; 变量类型:int 变量名:abc 初始值:10 // 该值为可选项,在创建变量 ...

  5. 如何实现 iOS 自定义状态栏

    给大家介绍如何实现 iOS 自定义状态栏 Sample Code: 01 UIWindow * statusWindow = [[UIWindow alloc] initWithFrame:[UIAp ...

  6. Oracle 事务的開始与结束

    事务是用来切割数据库活动的逻辑工作单元,事务即有起点,也有终点: 当下列事件之中的一个发生时,事务就開始了: 连接到数据库上,并运行了第一天 DML 语句: 当前一个事务结束后,又输入了另外一条 DM ...

  7. c++编程碰到的奇怪问题与解决

    今天写一个工具,调试过程中莫名其妙崩溃,类某些成员变量指针很奇怪,为0x00003001.最后检查的结果居然是这样的: 文件class1.h: class1 { int a; int b; } 文件: ...

  8. qemu-kvm-1.1.0源代码中关于迁移的代码分析

    这篇文档基于qemu-kvm-1.1.0源代码进行分析. 首先,源代码中的hmp-commands.hx文件里有下面内容: { .name = "migrate",/* 在moni ...

  9. .net DataTable 正确排序姿势

    关于dataTable中根据列排序正确姿势做个随笔,方便查阅 System.Data.DataTable dt = new System.Data.DataTable(); dt.Columns.Ad ...

  10. ToggleButton --------- 按钮实现开关效果

    ToggleButton(开关按钮)是Android系统中比较简单的一个组件,是一个具有选中和未选择状态双状态的按钮,并且需要为不同的状态设置不同的显示文本 ,默认状态下 关. ToggleButto ...