Hadoop-2.7.1集群环境搭建

摘自：http://blog.csdn.net/u014039577/article/details/49813531

由于日志数据量越来越大，数据处理的逻辑越来越复杂，同时还涉及到大量日志需要批处理，当前的flume-kafka-storm-Hbase-web这一套流程已经不能满足当前的需求了，所以只能另寻出路，于是想到了Hadoop这个东西。之前的storm是一个基于流式处理的实时分析系统，相比Hadoop的离线批处理各有千秋，两者相比，我有看到一个比较形象的比喻：Hadoop就像是纯净水，一桶一桶地搬，而Storm是用水管，预先接好，打开水龙头，水就源源不断的出来了。

同样，Hadoop的批处理也是相当的强大，高性能、高稳定、高吞吐量、分布式、批处理这些特点都是我们所需要的。于是，在目前的形势下，在之前的实时处理的基础上，我们想再加一个离线的日志批处理，于是用到了Hadoop。首先，我们得搭建好Hadoop集群，由于我也是第一次搭建Hadoop集群，其中遇到了许多的问题，可以说是一把辛酸泪，后面终于把集群搭建起来了，可算不负众望。

下面记录Hadoop的搭建过程：

1、首先到官网上下载一个Hadoop的压缩安装包，我安装用的版本是hadoop-2.7.1.tar.gz，由于我安装的是最新的版本，和Hadoop之前的版本有很大的差异，所以网上很多的教程都不适用，这也是导致在安装过程中遇到问题所在，下载地址：http://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.7.1/hadoop-2.7.1.tar.gz

2、下载完成后（这个压缩包比较大，有201M，下载比较慢，耐心等待吧），放到Linux某个目录下，这里我用的系统是：CentOS release 6.5 (Final)，我放的目录是：/usr/local/jiang/hadoop-2.7.1.tar.gz，然后执行：tar zxvf hadoop-2.7.1.tar.gz解压（这些操作都是要在集群中的主机上进行，也就是hadoop的master上面）

3、配置host文件

进入/etc/hosts，配置主机名和ip的映射，这里是集群的每个机子都需要配置，这里我的logsrv02是主机（master），其余两台是从机（slave）

[root@logsrv03 /]# vi /etc/hosts
172.17.6.142 logsrv02
172.17.6.149 logsrv04
172.17.6.148 logsrv03

4、jdk的安装（这里我的机子上面已经有了，所以就不需要再安装了）

我使用的jdk是jdk1.7.0_71，没有的需要安装，将jdk下载下来，解压到某个目录下，然后到/etc/profile中配置环境变量，在执行Java -version验证是否安装成功。

5、配置SSH免密码登陆

这里所说的免密码登录是相对于主机master来说的，master和slave之间需要通信，配置好后，master和slave进行ssh登陆的时候不需要输入密码。

如果系统中没有ssh的需要安装，然后执行：

[root@logsrv03 ~]# ssh-keygen -t rsa

会在根目录下生成私钥id_rsa和公钥id_rsa.pub

[root@logsrv03 /]# cd ~
[root@logsrv03 ~]# cd .ssh
[root@logsrv03 .ssh]# ll
总用量 20
-rw------- 1 root root 1185 11月 10 14:41 authorized_keys
-rw------- 1 root root 1675 11月 2 15:57 id_rsa
-rw-r--r-- 1 root root 395 11月 2 15:57 id_rsa.pub

然后将这里的公钥分别拷贝到其余slave中的.ssh文件中，然后要把公钥（id_dsa.pub）追加到授权的key中去：

cat id_rsa.pub >> authorized_keys

然后修改权限（每台机子都需要修改），这点我也没太弄明白，具体可以参考：http://blog.csdn.net/leexide/article/details/17252369

[root@logsrv04 .ssh]# chmod 600 authorized_keys
[root@logsrv04 .ssh]# chmod 700 -R .ssh

将生成的公钥复制到从机上的.ssh目录下：

[root@logsrv03 .ssh]# scp -r id_rsa.pub root@logsrv02:~/.ssh/
[root@logsrv03 .ssh]# scp -r id_rsa.pub root@logsrv04:~/.ssh/

然后所有机子都需要重启ssh服务

[root@logsrv03 .ssh]# service sshd restart
[root@logsrv02 .ssh]# service sshd restart
[root@logsrv04 .ssh]# service sshd restart

然后验证免密码登陆是否成功，这里在主机master这里验证：

[root@logsrv03 .ssh]# ssh logsrv02
[root@logsrv03 .ssh]# ssh logsrv04

如果在登陆slave不需要输入密码，则免密码登陆设置成功。

6、开始安装Hadoop，配置hadoop环境变量/etc/profile(所有机子都需要配置)

export HADOOP_HOME=/usr/local/jiang/hadoop-2.7.1
export PATH=$PATH:$HADOOP_HOME/bin

7、修改配置文件：

（1）、修改hadoop-2.7.1/etc/hadoop/hadoop-env.sh

[root@logsrv03 /]# cd usr/local/jiang/hadoop-2.7.1
[root@logsrv03 hadoop-2.7.1]# cd etc/hadoop/
[root@logsrv03 hadoop]# vi hadoop-env.sh
export JAVA_HOME=/usr/local/jdk1.7.0_71

(2)、修改hadoop-2.7.1/etc/hadoop/slaves

[root@logsrv03 hadoop]# vi slaves
logsrv02
logsrv04

(3)、修改hadoop-2.7.1/etc/hadoop/core-site.xml

<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://logsrv03:8020</value>
</property>
<property>
<name>io.file.buffer.size</name>
<value>131072</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>file:/opt/hadoop/tmp</value>
</property>
<property>
<name>fs.hdfs.impl</name>
<value>org.apache.hadoop.hdfs.DistributedFileSystem</value>
<description>The FileSystem for hdfs: uris.</description>
</property>
<property>
<name>fs.file.impl</name>
<value>org.apache.hadoop.fs.LocalFileSystem</value>
<description>The FileSystem for hdfs: uris.</description>
</property>
</configuration>

（4）、修改hadoop-2.7.1/etc/hadoop/hdfs-site.xml

<configuration>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/opt/hadoop/dfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/opt/hadoop/dfs/data</value>
</property>
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
</configuration>

(5)、修改hadoop-2.7.1/etc/hadoop/yarn-site.xml

<configuration>
<property>
<name>yarn.resourcemanager.address</name>
<value>logsrv03:8032</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>logsrv03:8030</value>
</property>
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>logsrv03:8031</value>
</property>
<property>
<name>yarn.resourcemanager.admin.address</name>
<value>logsrv03:8033</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.address</name>
<value>logsrv03:8088</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
</configuration>

(6)、修改hadoop-2.7.1/etc/hadoop/mapred-site.xml

<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>mapreduce.jobhistory.address</name>
<value>logsrv03:10020</value>
</property>
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>logsrv03:19888</value>
</property>
</configuration>

8、这些配置文件配置完毕后，然后将整个hadoop-2.7.1文件复制到各个从机的目录下，这里目录最好与主机一致

[root@logsrv03 hadoop-2.7.1]# scp -r hadoop-2.7.1 root@logsrv02:/usr/local/jiang/
[root@logsrv03 hadoop-2.7.1]# scp -r hadoop-2.7.1 root@logsrv04:/usr/local/jiang/

9、到这里全部配置完毕，然后开始启动hadoop，首先格式化hdfs

[root@logsrv03 hadoop-2.7.1]# bin/hdfs namenode -format

如果出现successfully formatted则表示格式化成功。
10、然后启动hdfs

[root@logsrv03 hadoop-2.7.1]# sbin/start-dfs.sh

到这里，可以查看启动的进程：

主机logsrv03：

[root@logsrv03 hadoop-2.7.1]# jps
29637 NameNode
29834 SecondaryNameNode

从机logsrv02、logsrv04：

[root@logsrv04 hadoop-2.7.1]# jps
20360 DataNode

[root@logsrv02 hadoop-2.7.1]# jps
10774 DataNode

11、启动yarn

[root@logsrv03 hadoop-2.7.1]# sbin/start-yarn.sh

到这里，启动的进程：

主机logsrv03：

[root@logsrv03 hadoop-2.7.1]# jps
29637 NameNode
29834 SecondaryNameNode
30013 ResourceManager

从机logsrv02、logsrv04：

[root@logsrv02 hadoop-2.7.1]# jps
10774 DataNode
10880 NodeManager

[root@logsrv04 hadoop-2.7.1]# jps
20360 DataNode
20483 NodeManager

到这里，恭喜整个集群配置完成，可以通过：http://logsrv03:8088/cluster查看hadoop集群图：

查看HDFS：

Hadoop-2.7.1集群环境搭建的更多相关文章

Hadoop+HBase+ZooKeeper分布式集群环境搭建
一.环境说明集群环境至少需要3个节点(也就是3台服务器设备):1个Master,2个Slave,节点之间局域网连接,可以相互ping通,下面举例说明,配置节点IP分配如下: Hostname IP ...
大数据hadoop入门学习之集群环境搭建集合
目录: 1.基本工作准备 1.虚拟机准备 2.java 虚拟机-jdk环境配置 3.ssh无密码登录 2.hadoop的安装与配置 3.hbase安装与配置(集成安装zookeeper) 4.zook ...
Hadoop+Spark:集群环境搭建
环境准备: 在虚拟机下,大家三台Linux ubuntu 14.04 server x64 系统(下载地址:http://releases.ubuntu.com/14.04.2/ubuntu-14.0 ...
hadoop集群环境搭建之zookeeper集群的安装部署
关于hadoop集群搭建有一些准备工作要做,具体请参照hadoop集群环境搭建准备工作 (我成功的按照这个步骤部署成功了,经实际验证,该方法可行) 一.安装zookeeper 1 将zookeeper ...
hadoop集群环境搭建之安装配置hadoop集群
在安装hadoop集群之前,需要先进行zookeeper的安装,请参照hadoop集群环境搭建之zookeeper集群的安装部署 1 将hadoop安装包解压到 /itcast/ (如果没有这个目录 ...
hadoop集群环境搭建准备工作
一定要注意hadoop和linux系统的位数一定要相同,就是说如果hadoop是32位的,linux系统也一定要安装32位的. 准备工作: 1 首先在VMware中建立6台虚拟机(配置默认即可).这是 ...
Hadoop集群环境搭建步骤说明
Hadoop集群环境搭建是很多学习hadoop学习者或者是使用者都必然要面对的一个问题,网上关于hadoop集群环境搭建的博文教程也蛮多的.对于玩hadoop的高手来说肯定没有什么问题,甚至可以说事“ ...
Hadoop完全分布式集群环境搭建
1. 在Apache官网下载Hadoop 下载地址:http://hadoop.apache.org/releases.html 选择对应版本的二进制文件进行下载 2.解压配置以hadoop-2.6 ...
大数据 -- Hadoop集群环境搭建
首先我们来认识一下HDFS, HDFS(Hadoop Distributed File System )Hadoop分布式文件系统.它其实是将一个大文件分成若干块保存在不同服务器的多个节点中.通过联网 ...
Spark集群环境搭建——Hadoop集群环境搭建
Spark其实是Hadoop生态圈的一部分,需要用到Hadoop的HDFS.YARN等组件. 为了方便我们的使用,Spark官方已经为我们将Hadoop与scala组件集成到spark里的安装包,解压 ...

随机推荐

MyBatis查询两个字段，返回Map，一个字段作为key，一个字段作为value的实现
1. 问题描述在使用MyBatis,我们经常会遇到这种情况:SELECT两个字段,需要返回一个Map,其中第一个字段作为key,第二个字段作为value.MyBatis的MapKey虽然很实用,但并 ...
MyBatis insert后返回自增字段的值
如下情况适用支持自增的DB,如MySQL.其他情况参见:MyBatis魔法堂:Insert操作详解(返回主键.批量插入) 1.model public class UserInfo { private ...
COJ 0359 xjr考考你数据结构（根号2）线段树区间增加
xjr考考你数据结构(根号2) 难度级别:C: 运行时间限制:3000ms: 运行空间限制:51200KB: 代码长度限制:2000000B 试题描述请你编写一个数据结构,完成以下功能: 1)求出第 ...
关于标准C语言的预定义宏
标准C语言预处理要求定义某些对象宏,每个预定义宏的名称一两个下划线字符开头和结尾,这些预定义宏不能被取消定义(#undef)或由编程人员重新定义.下面预定义宏表,被我抄了下来.__LINE__ 当前 ...
安卓，分享到facebook的若干种方法汇总
近期做了facebook的分享功能,遇到了很多问题,这里总结一下,供大家参考,不足之处还请大家指正. facebook分享方式: 1.通过intent调用调用本地facebook应用方式支持单独分享 ...
HDU_1174——爆头,空间直线方程,直线到点的距离
Problem Description gameboy是一个CS高手,他最喜欢的就是扮演警察,手持M4爆土匪的头.也许这里有人没玩过CS,有必要介绍一下“爆头”这个术语:所谓爆头,就是子弹直接命中对方 ...
C#的checked和unchecked
C#的 checked关键字用于对整型算术运算和转换显式启用溢出检查. 简单点说,我们在进行数值计算时,运算结果可能会超出该类型能表达的数值范围,因而结果溢出.而这个溢出如果是含有变量的表达式的话,编 ...
hadoop2.2.0 MapReduce分区
package com.my.hadoop.mapreduce.partition; import java.util.HashMap;import java.util.Map; import org ...
servletContext百科
servletContext 编辑 servletContext接口是Servlet中最大的一个接口,呈现了web应用的Servlet视图.ServletContext实例是通过 getServl ...
Android 字体设置
Android 对中文字体支持很不好~~ 需要加入相应的字体库 (1)创建布局Layout //创建线性布局 LinearLayout linearLayout=newLinearLayout(thi ...

Hadoop-2.7.1集群环境搭建

Hadoop-2.7.1集群环境搭建的更多相关文章

随机推荐

热门专题