hadoop的配置见下面这篇文章

http://www.powerxing.com/install-hadoop-2-4-1-single-node/

Hadoop安装教程_单机/伪分布式配置_Hadoop2.4.1_Ubuntu14.04

2014-08-09 (updated: 2014-12-30) 8275

环境

系统： Ubuntu 14.04 64bit
Hadoop版本： Hadoop 2.4.1 (stable)
JDK版本： OpenJDK 7

本教程基于 Hadoop 2.4.1，但对于 Hadoop 2.x 版本应该都是适用的。

创建hadoop用户

如果你安装Ubuntu的时候不是用的hadoop用户，那么需要增加一个名为hadoop的用户，并将密码设置为hadoop。

创建用户

sudo useradd hadoop

修改密码为hadoop，按提示输入两次密码

sudo passwd hadoop

给hadoop用户创建目录，方可登陆

sudo mkdir /home/hadoop

sudo chown hadoop /home/hadoop

可考虑为 hadoop 用户增加管理员权限，方便部署，避免一些权限不足的问题：

sudo adduser hadoop sudo

最后注销当前用户，使用hadoop用户进行登陆。

安装SSH server、配置SSH无密码登陆

Ubuntu默认安装了SSH client，还需要安装SSH server。

sudo apt-get install openssh-server

集群、单节点模式都需要用到SSH无密码登陆，首先设置SSH无密码登陆本机。

输入命令

ssh localhost

会有如下提示(SSH首次登陆提示)，输入yes。

SSH首次登陆提示

然后按提示输入密码hadoop，这样就登陆到本机了。但这样的登陆是需要密码的，需要配置成无密码登陆。

先退出刚才的ssh，然后生成ssh证书：

exit                           # 退出 ssh localhost

cd ~/.ssh                      # 如果没有该目录，先执行一次ssh localhost

ssh-keygen -t rsa              # 一直按回车就可以

cp id_rsa.pub authorized_keys

此时再用ssh localhost命令，就可以直接登陆了，如下图所示。

SSH无密码登陆

安装Java环境

以前的教程都是建议安装Oracle的JDK，不建议使用OpenJDK，不过按http://wiki.apache.org/hadoop/HadoopJavaVersions中说的，新版本在OpenJDK 1.7下是没问题的。通过命令安装OpenJDK 7。

sudo apt-get install openjdk-7-jre openjdk-7-jdk

默认的安装位置为: /usr/lib/jvm/java-7-openjdk-amd64 (可以通过命令dpkg -L openjdk-7-jdk看到)。安装完后就可以使用了，可以用java -version检查一下。

需要配置一下 JAVA_HOME 环境变量，这个环境变量很多地方都会用到，在 /etc/environment 中配置：

sudo vim /etc/environment

在文件末尾添加一行：

JAVA_HOME="/usr/lib/jvm/java-7-openjdk-amd64"

保存，最后需要注销然后再次登陆，或重启一下，才能保证 JAVA_HOME 在新打开的终端窗口中都能使用（注销、重启后，新打开一个终端窗口，输入 echo $JAVA_HOME 检验）。

安装Hadoop 2.4.1

2.4.1的下载地址为: http://mirrors.cnnic.cn/apache/hadoop/common/hadoop-2.4.1/hadoop-2.4.1.tar.gz，安装教程主要参考了官方教程http://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.html。

下载后,解压到/usr/local/中。

sudo tar -zxvf ~/下载/hadoop-2.4.1.tar.gz -C /usr/local   # 解压到/usr/local中

sudo mv /usr/local/hadoop-2.4.1/ /usr/local/hadoop      # 将文件名改为hadoop

sudo chown -R hadoop:hadoop /usr/local/hadoop       # 修改文件权限

Hadoop解压后即可使用。输入如下命令Hadoop检查是否可用，成功则会显示命令行的用法：

/usr/local/hadoop/bin/hadoop

Hadoop单机配置

Hadoop默认配置是以非分布式模式运行，即单Java进程，方便进行调试。可以执行附带的例子WordCount来感受下Hadoop的运行。例子将Hadoop的配置文件作为输入文件，统计符合正则表达式dfs[a-z.]+的单词的出现次数。

cd /usr/local/hadoop

mkdir input

cp etc/hadoop/*.xml input

bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.4.1.jar grep input output 'dfs[a-z.]+'

cat ./output/*

执行成功后如下所示，输出了作业的相关信息，输出的结果是符合正则的单词dfsadmin出现了1次

Hadoop单机WordCount输出结果

再次运行会提示出错，需要将./output删除。

rm -R ./output

Hadoop伪分布式配置

Hadoop可以在单节点上以伪分布式的方式运行，Hadoop进程以分离的Java进程来运行，节点即是NameNode也是DataNode。需要修改2个配置文件etc/hadoop/core-site.xml和etc/hadoop/hdfs-site.xml。Hadoop的配置文件是xml格式，声明property的name和value。

修改配置文件etc/hadoop/core-site.xml，将

<configuration>

</configuration>

修改为下面配置：

<configuration>

    <property>

        <name>hadoop.tmp.dir</name>

        <value>file:/usr/local/hadoop/tmp</value>

        <description>Abase for other temporary directories.</description>

    </property>

    <property>

        <name>fs.defaultFS</name>

        <value>hdfs://localhost:9000</value>

    </property>

</configuration>

修改配置文件etc/hadoop/hdfs-site.xml为

<configuration>

    <property>

        <name>dfs.replication</name>

        <value>1</value>

    </property>

    <property>

        <name>dfs.namenode.name.dir</name>

        <value>file:/usr/local/hadoop/tmp/dfs/name</value>

    </property>

Hadoop安装教程_单机/伪分布式配置_Hadoop2.4.1_Ubuntu14.04

2014-08-09 (updated: 2014-12-30) 8275

环境

系统： Ubuntu 14.04 64bit
Hadoop版本： Hadoop 2.4.1 (stable)
JDK版本： OpenJDK 7

本教程基于 Hadoop 2.4.1，但对于 Hadoop 2.x 版本应该都是适用的。

创建hadoop用户

如果你安装Ubuntu的时候不是用的hadoop用户，那么需要增加一个名为hadoop的用户，并将密码设置为hadoop。

创建用户

sudo useradd hadoop

修改密码为hadoop，按提示输入两次密码

sudo passwd hadoop

给hadoop用户创建目录，方可登陆

sudo mkdir /home/hadoop

sudo chown hadoop /home/hadoop

可考虑为 hadoop 用户增加管理员权限，方便部署，避免一些权限不足的问题：

sudo adduser hadoop sudo

最后注销当前用户，使用hadoop用户进行登陆。

安装SSH server、配置SSH无密码登陆

Ubuntu默认安装了SSH client，还需要安装SSH server。

sudo apt-get install openssh-server

集群、单节点模式都需要用到SSH无密码登陆，首先设置SSH无密码登陆本机。

输入命令

ssh localhost

会有如下提示(SSH首次登陆提示)，输入yes。

SSH首次登陆提示

然后按提示输入密码hadoop，这样就登陆到本机了。但这样的登陆是需要密码的，需要配置成无密码登陆。

先退出刚才的ssh，然后生成ssh证书：

exit                           # 退出 ssh localhost

cd ~/.ssh                      # 如果没有该目录，先执行一次ssh localhost

ssh-keygen -t rsa              # 一直按回车就可以

cp id_rsa.pub authorized_keys

此时再用ssh localhost命令，就可以直接登陆了，如下图所示。

SSH无密码登陆

安装Java环境

sudo apt-get install openjdk-7-jre openjdk-7-jdk

默认的安装位置为: /usr/lib/jvm/java-7-openjdk-amd64 (可以通过命令dpkg -L openjdk-7-jdk看到)。安装完后就可以使用了，可以用java -version检查一下。

需要配置一下 JAVA_HOME 环境变量，这个环境变量很多地方都会用到，在 /etc/environment 中配置：

sudo vim /etc/environment

在文件末尾添加一行：

JAVA_HOME="/usr/lib/jvm/java-7-openjdk-amd64"

安装Hadoop 2.4.1

下载后,解压到/usr/local/中。

sudo tar -zxvf ~/下载/hadoop-2.4.1.tar.gz -C /usr/local   # 解压到/usr/local中

sudo mv /usr/local/hadoop-2.4.1/ /usr/local/hadoop      # 将文件名改为hadoop

sudo chown -R hadoop:hadoop /usr/local/hadoop       # 修改文件权限

Hadoop解压后即可使用。输入如下命令Hadoop检查是否可用，成功则会显示命令行的用法：

/usr/local/hadoop/bin/hadoop

Hadoop单机配置

cd /usr/local/hadoop

mkdir input

cp etc/hadoop/*.xml input

bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.4.1.jar grep input output 'dfs[a-z.]+'

cat ./output/*

执行成功后如下所示，输出了作业的相关信息，输出的结果是符合正则的单词dfsadmin出现了1次

Hadoop单机WordCount输出结果

再次运行会提示出错，需要将./output删除。

rm -R ./output

Hadoop伪分布式配置

修改配置文件etc/hadoop/core-site.xml，将

<configuration>

</configuration>

修改为下面配置：

<configuration>

    <property>

        <name>hadoop.tmp.dir</name>

        <value>file:/usr/local/hadoop/tmp</value>

        <description>Abase for other temporary directories.</description>

    </property>

    <property>

        <name>fs.defaultFS</name>

        <value>hdfs://localhost:9000</value>

    </property>

</configuration>

修改配置文件etc/hadoop/hdfs-site.xml为

<configuration>

    <property>

        <name>dfs.replication</name>

        <value>1</value>

    </property>

    <property>

        <name>dfs.namenode.name.dir</name>

        <value>file:/usr/local/hadoop/tmp/dfs/name</value>

    </property>

    <property>

        <name>dfs.datanode.data.dir</name>

        <value>file:/usr/local/hadoop/tmp/dfs/data</value>

    </property>

</configuration>

关于配置的一点说明：上面只要配置 fs.defaultFS 和 dfs.replication 就可以运行，不过有个说法是如没有配置 hadoop.tmp.dir 参数，此时 Hadoop 默认的使用的临时目录为 /tmp/hadoo-hadoop，而这个目录在每次重启后都会被干掉，必须重新执行 format 才行（未验证），所以伪分布式配置中最好还是设置一下。此外也需要显式指定 dfs.namenode.name.dir 和 dfs.datanode.data.dir，否则下一步可能会出错。

配置完成后，首先初始化文件系统 HDFS:

bin/hdfs namenode -format

成功的话，最后的提示如下，Exitting with status 0 表示成功，Exitting with status 1: 则是出错。若出错，可试着加上 sudo, 既 sudo bin/hdfs namenode -format 试试看。

初始化HDFS文件系统

接着开启NaneNode和DataNode守护进程。

sbin/start-dfs.sh

若出现下面SSH的提示，输入yes即可。

启动Hadoop时的SSH提示

有可能会出现如下很多的warn提示，下面的步骤中也会出现，特别是native-hadoop library这个提示，可以忽略，并不会影响hadoop的功能。想解决这些提示可以看后面的附加教程(最好还是解决下，不困难，省得看这么多无用提示)。

启动Hadoop时的warn提示

成功启动后，可以通过命令jps看到启动了如下进程NameNode、DataNode和SecondaryNameNode。

通过查看启动日志分析启动失败原因

有时Hadoop无法正确启动，如 NameNode 进程没有顺利启动，这时可以查看启动日志来排查原因，不过新手可能需要注意几点：

启动时会提示形如 “Master: starting namenode, logging to /usr/local/hadoop/logs/hadoop-hadoop-namenode-Master.out”，其中 Master 对应你的机器名，但其实启动日志信息是记录在 /usr/local/hadoop/logs/hadoop-hadoop-namenode-Master.log 中，所以应该查看这个 .log 的文件；
每一次的启动日志都是追加在日志文件之后，所以得拉到最后面看，这个看下记录的时间就知道了。
一般出错的提示在最后面，也就是写着 Fatal、Error 或者 Java Exception 的地方。

通过jps查看启动的Hadoop进程

此时可以访问Web界面http://localhost:50070来查看Hadoop的信息。

Hadoop的Web界面

Hadoop伪分布式实例-WordCount

首先创建所需的几个目录

bin/hdfs dfs -mkdir /user

bin/hdfs dfs -mkdir /user/hadoop

接着将etc/hadoop中的文件作为输入文件复制到分布式文件系统中，即将/usr/local/hadoop/etc/hadoop复制到分布式文件系统中的/user/hadoop/input中。上一步创建的 /user/hadoop 相当于 HDFS 中的用户当前目录，可以看到复制文件时无需指定绝对目录，下面的命令的目标路径就是 /user/hadoop/input:

bin/hdfs dfs -put etc/hadoop input

运行MapReduce作业，执行成功的话跟单机模式相同，输出作业信息。

bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.4.1.jar grep input output 'dfs[a-z.]+'

查看运行结果

bin/hdfs dfs -cat output/*

也可以将运行结果取回到本地。

rm -R ./output

bin/hdfs dfs -get output output

cat ./output/*

结果如下，注意到跟单机模式中用的不是相同的数据，所以运行结果不同（换成原来的数据，结果是一致的）。

Hadoop伪分布式运行WordCout结果

可以看到，使用bin/hdfs dfs -命令可操作分布式文件系统，如

bin/hdfs dfs -ls /user/hadoop           # 查看`/user/hadoop`中的文件

bin/hdfs dfs -rm -R /user/hadoop/input/*    # 删除 input 中的文件

bin/hdfs dfs -rm -R /user/hadoop/output     # 删除 output 文件夹

运行程序时，输出目录需不存在

运行 Hadoop 程序时，结果的输出目录（如output）不能存在，否则会提示错误，因此运行前需要先删除输出目录。建议在程序中加上如下代码进行删除，避免繁琐的命令行操作：

Configuration conf = new Configuration();

Job job = new Job(conf);

...

/* 删除输出目录 */

Path outputPath = new Path(args[1]);

outputPath.getFileSystem(conf).delete(outputPath, true);

...

结束Hadoop进程，则运行

sbin/stop-dfs.sh

注意

下次再启动hadoop，无需进行HDFS的初始化，只需要运行 sbin/stop-dfs.sh 就可以！

hbase配置：

修改文件conf/hbase_env.sh

添加export JAVA_HOME=/usr/lib/jvm/java-6-sun-1.6.0.26

修改文件conf/hbase_site.xml

<name>hbase.rootdir</name>

<value>hdfs://localhost:9000/hbase</value>
</property>

<name>hbase.cluster.distributed</name>

<value>false</value>

</property>
几个注意点：

第一，hdfs://localhost:9000/hbase这条属性要与hadoop中core_site.xml中的配置要相同

第二，要预先在hdfs文件系统中建立hbase文件夹

第三，我们配置的是伪分布式的hadoop，所以hbase.cluster.distributed属性为false

hadoop+hbase的更多相关文章

[推荐]Hadoop+HBase+Zookeeper集群的配置
[推荐]Hadoop+HBase+Zookeeper集群的配置 Hadoop+HBase+Zookeeper集群的配置 http://wenku.baidu.com/view/991258e881c ...
hbase(ERROR: org.apache.hadoop.hbase.ipc.ServerNotRunningYetException: Server is not running yet)
今天启动clouder manager集群时候hbase list出现 (ERROR: org.apache.hadoop.hbase.ipc.ServerNotRunningYetException ...
Cloudera集群中提交Spark任务出现java.lang.NoSuchMethodError: org.apache.hadoop.hbase.HTableDescriptor.addFamily错误解决
Cloudera及相关的组件版本 Cloudera: 5.7.0 Hbase: 1.20 Hadoop: 2.6.0 ZooKeeper: 3.4.5 就算是引用了相应的组件依赖,依然是报一样的错误! ...
【解决】org.apache.hadoop.hbase.ClockOutOfSyncException:
org.apache.hadoop.hbase.ClockOutOfSyncException: org.apache.hadoop.hbase.ClockOutOfSyncException: Se ...
Hadoop,HBase,Zookeeper源码编译并导入eclipse
基本理念:尽可能的参考官方英文文档 Hadoop: http://wiki.apache.org/hadoop/FrontPage HBase: http://hbase.apache.org/b ...
org.apache.hadoop.hbase.TableNotDisabledException 解决方法
Exception in thread "main" org.apache.hadoop.hbase.TableNotDisabledException: org.apache.h ...
Java 向Hbase表插入数据报（org.apache.hadoop.hbase.client.HTablePool$PooledHTable cannot be cast to org.apac）
org.apache.hadoop.hbase.client.HTablePool$PooledHTable cannot be cast to org.apac 代码: //1.create HTa ...
Hadoop,HBase集群环境搭建的问题集锦(四)
21.Schema.xml和solrconfig.xml配置文件里參数说明: 參考资料:http://www.hipony.com/post-610.html 22.执行时报错: 23., /comm ...
生成HFile文件后倒入数据出现Caused by: java.lang.ClassNotFoundException: org.apache.hadoop.hbase.filter.Filter
数据导入的时候出现: at java.lang.Class.getDeclaredMethods0(Native Method) at java.lang.Class.privateGetDeclar ...
Hbase 配置问题（ERROR: org.apache.hadoop.hbase.PleaseHoldException: org.apache.hadoop.hbase.PleaseHoldEx）
ERROR: org.apache.hadoop.hbase.PleaseHoldException: org.apache.hadoop.hbase.PleaseHoldException: Mas ...

随机推荐

JS源码（条件的判定，循环，数组，函数，对象）整理摘录
--- title: JS学习笔记-从条件判断语句到对象创建 date: 2016-04-28 21:31:13 tags: [javascript,front-end] ---JS学习笔记——整理自 ...
7款纯CSS3实现的炫酷动画应用
1.纯CSS3实现人物摇头动画这次我们要来分享一款超级可爱的纯CSS3人物摇头动画,初始化的时候人物的各个部位是利用CSS3动画效果拼接而成,接下来就是人物听音乐的场景,一边听音乐一边摇着脑袋,十分 ...
ArcGIS10中matplotlib画图时的中文设置
利用GIS的数据批量生成XY的图形图像文件,可以直接使用Python.一般大家都是用matplotlib,中文设置的问题参看了许多内容,结论是对错不一,让我折腾了三天,现总结如下: 1.软件的版本.安 ...
php 去除数组中重复元素
去除数组中重复元素, 找了下可以一下两个函数 php array_flip()与array_uniqure() $arr = array(…………) ;// 假设有数组包含一万个元素,里面有重复的元素 ...
大仙说道之Android studio实现Service AIDL
今天要开发过程中要用到AIDL的调用,之前用的eclipse有大量教程,用起来很方便,现在刚换了Android studio,不可否认studio真的很强大,只是很多功能还需要摸索. AIDL(And ...
silverlight将字符串转化为控件
silverlight的System.Windows.Markup命名空间下,提供了XamlReader.Load()方法可以将字符串转换为控件. 代码 StringBuilder sbGrid = ...
WPF 绑定四(层级绑定)
xaml: <Window x:Class="WpfApplication1.Window4" xmlns="http://schemas.microsoft.co ...
JVM学习---JAVA内存
一.JAVA运行时数据区域:JAVA中的运行时内存区域有的随着虚拟机进程的启动而存在,有的区域则是依赖用户线程的启动和结束而建立和销毁的.包括以下的几个区域. 图. JAVA虚拟机运行时数据区 1.程 ...
php 图形验证码的3种方法
生成图形验证码需要使用php GD库来生成,如果你没开户GD库我们需要在php.ini文件找到extension=php_gd2.dll 去掉前面的;就行了,然后重启apache 或iis环境即可检 ...
Android L Ripple的使用
声明:Demo并不是有本人所写,本人只是总结在这里工程源码: RippleDemo.zip ---------------------------------------------------- ...

hadoop+hbase

Hadoop安装教程_单机/伪分布式配置_Hadoop2.4.1_Ubuntu14.04

环境

创建hadoop用户

安装SSH server、配置SSH无密码登陆

安装Java环境

安装Hadoop 2.4.1

Hadoop单机配置

Hadoop伪分布式配置

Hadoop安装教程_单机/伪分布式配置_Hadoop2.4.1_Ubuntu14.04

环境

创建hadoop用户

安装SSH server、配置SSH无密码登陆

安装Java环境

安装Hadoop 2.4.1

Hadoop单机配置

Hadoop伪分布式配置

Hadoop伪分布式实例-WordCount

hadoop+hbase的更多相关文章

随机推荐

热门专题