环境介绍

硬件环境

CPU 4 MEM 4G 磁盘 60G

软件环境

OS:centos6.5版本 64位

Hadoop：hadoop2.5.2 64位

JDK: JDK 1.8.0_91

主机配置规划

Hadoop01 172.16.1.156 （NameNode）

Hadoop02 172.16.1.157 (DataNode)

Hadoop03 172.16.1.158 (DataNode)

设置主机名

这里主机名修改不是必须条件，但是为了操作简单，建议将主机名设置一下，需要修改调整各台机器的hosts文件配置，命令如下：

如果没有足够的权限，可以切换用户为root

三台机器统一增加以下host配置：

配置免密码登录SSH

1）生成密钥：

ssh-keygen -t rsa

2）将id_dsa.pub（公钥）追加到授权key中：

cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

3）将认证文件复制到另外两台DataNode节点上：

scp ~/.ssh/authorized_keys 172.16.1.157:~/.ssh/

scp ~/.ssh/authorized_keys 172.16.1.158:~/.ssh/

3）测试：

ssh hadoop02或ssh hadoop03

各节点安装JDK

（1）检查jdk版本、卸载openjdk版本

查看目前安装openjdk信息：rpm -qa|grep java

卸载以上三个文件（需要root权限，登录root权限卸载）

rpm -e --nodeps java-1.7.0-openjdk-1.7.0.45-2.4.3.3.el6.x86_64

rpm -e --nodeps java-1.6.0-openjdk-1.6.0.0-1.66.1.13.0.el6.x86_64

rpm -e --nodeps tzdata-java-2013g-1.el6.noarch

（2）选择版本是jdk-8u91-linux-x64.gz

（3）解压安装:

(4)重命名jdk为jdk1.8(用mv命令)

(5) 配置环境变量：vi /etc/profile加入以下三行

#JAVA_HOME

export JAVA_HOME=/home/hadoop/jdk1.8

export PATH=$JAVA_HOME/bin:$PATH

(6)执行source /etc/profile使环境变量的配置生效

(7)执行Java –version查看jdk版本，验证是否成功

(8)将hadoop01机器上安装好JDK复制到另外两台节点上

Hadoop安装

每台节点都要安装

Hadoop。

上传

hadoop-2.5.2.tar.gz

到用户

/home/hadoop/software

目录下。

解压

tar -zvxf hadoop-2.5.2.tar.gz -C /home/hadoop/

添加环境变量

vi /etc/profile，尾部添加如下

export JAVA_HOME=/home/hadoop/jdk1.8

export HADOOP_HOME=/home/hadoop/hadoop-2.5.2

export HADOOP_COMMON_HOME=$HADOOP_HOME

export HADOOP_HDFS_HOME=$HADOOP_HOME

export HADOOP_MAPRED_HOME=$HADOOP_HOME

export HADOOP_YARN_HOME=$HADOOP_HOME

export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

export CLASSPATH=.:$JAVA_HOME/lib:$HADOOP_HOME/lib:$CLASSPATH

export PATH=$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

设置环境变量立即生效

source /etc/profile

配置Hadoop文件

（1） core-site.xml

<name>fs.defaultFS</name>

<value>hdfs://hadoop01:9000</value>

</property>

<name>hadoop.tmp.dir</name>

<value>file:/home/hadoop/hadoop-2.5.2/hadoop_tmp</value>

</property>

<name>io.file.buffer.size</name>

</property>

</configuration>

（2）hdfs-site.xml

<name>dfs.replication</name>

</property>

<name>dfs.namenode.secondary.http-address</name>

<value>

hadoop01

:9001</value>

</property>

<name>dfs.namenode.name.dir</name>

<value>file:

/home/hadoop/hadoop-2.5.2

/dfs/name</value>

<description>namenode上存储hdfs元数据</description>

</property>

<name>dfs.datanode.data.dir</name>

<value>file:/

home/hadoop/hadoop-2.5.2

/dfs/data</value>

<description>datanode上数据块物理存储位置</description>

</property>

<name>dfs.webhdfs.enabled</name>

</property>

</configuration>

注：访问namenode的

webhdfs

使用50070端口，访问datanode的webhdfs使用50075端口。要想不区分端口，直接使用namenode的IP和端口进行所有webhdfs操作，就需要在所有datanode上都设置hdfs-site.xml中dfs.webhdfs.enabled为true。

（3）mapred-site.xml

<name>mapreduce.framework.name</name>

</property>

<name>mapreduce.jobhistory.address</name>

<value>hadoop01:10020</value>

</property>

<name>mapreduce.jobhistory.webapp.address</name>

<value>hadoop01:19888</value>

</property>

</configuration>

jobhistory是Hadoop自带一个历史服务器，记录Mapreduce历史作业。默认情况下，jobhistory没有启动，可用以下命令启动：

sbin/mr-jobhistory-daemon.sh start historyserver

（4）yarn-site.xml

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

<name>yarn.resourcemanager.address</name>

<value>

hadoop01

:8032</value>

</property>

<name>yarn.resourcemanager.scheduler.address</name>

<value>hadoop01:8030</value>

</property>

<name>yarn.resourcemanager.resource-tracker.address</name>

<value>hadoop01:8031</value>

</property>

<name>yarn.resourcemanager.admin.address</name>

<value>hadoop01:8033</value>

</property>

<name>yarn.resourcemanager.webapp.address</name>

<value>hadoop01:8088</value>

</property>

</configuration>

（5）修改slaves文件，添加datanode节点hostname到slaves文件中

hadoop01

hadoop02

（6）

如果已经配置了JAVA_HOME环境变量，hadoop-env.sh与yarn-env.sh这两个文件不用修改，因为里面配置就是：

export JAVA_HOME=${JAVA_HOME}

如果没有配置JAVA_HOME环境变量，需要分别在hadoop-env.sh和yarn-env.sh中

手动

添加

JAVA_HOME

export JAVA_HOME=

/home/hadoop/jdk1.8

最后，将整个hadoop-2.5.2文件夹及其子文件夹使用scp复制到两台Slave相同目录中：

运行Hadoop

格式化

hdfs namenode –format

启动Hadoop

start-dfs.sh

start-yarn.sh

可以用一条命令：

start-all.sh

停止Hadoop

stop-all.sh

JPS查看进程

master主节点进程：

slave数据节点进程：

通过浏览器查看集群运行状态

http://172.16.1.156:50070

http://172.16.1.156:8088/

http://172.16.1.156:19888

jobhistory是Hadoop自带一个历史服务器，记录Mapreduce历史作业。默认情况下，jobhistory没有启动，可用以下命令启动：

sbin/mr-jobhistory-daemon.sh start historyserver

测试Hadoop

1）建立输入文件：

vi wordcount.txt

输入内容为：

hello you

hello me

hello everyone

2）建立目录

hadoop fs -mkdir /data/wordcount

hadoop fs –mkdir /output/

目录/data/wordcount用来存放Hadoop自带WordCount例子的数据文件，运行这个MapReduce任务结果输出到/output/wordcount目录中。

3）上传文件

hadoop fs -put wordcount.txt/data/wordcount/

4）执行wordcount程序

hadoop jar usr/local/program/Hadoop-2.5.1/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.1.jar wordcount /data/wordcount /output/wordcount/

5）查看结果

hadoop fs -text /output/wordcount/part-r-00000

[root@m1mydata]# hadoop fs -text /output/wordcount/part-r-00000

everyone 1

hello 3

me 1

you 1

搭建中遇到问题总结

问题一：

在配置环境变量过程可能遇到输入命令ls命令不能识别问题：

ls -bash: ls: command not found

原因：在设置环境变量时，编辑profile文件没有写正确，将export PATH=$JAVA_HOME/bin:$PATH中冒号误写成分号 ,导致在命令行下ls等命令不能够识别。

解决方案：
export PATH=/usr/local/sbin:/usr/local/bin:/sbin:/bin:/usr/sbin:/usr/bin:/root/bin

问题二：

在主机上启动hadoop集群，然后使用jps查看主从机上进程状态，能够看到主机上的resourcemanager和各个从机上的nodemanager，但是过一段时间后，从机上的nodemanager就没有了，主机上的resourcemanager还在。

原因是防火墙处于开启状态：

注：nodemanager启动后要通过心跳机制定期与RM通信，否则RM会认为NM死掉，会停止NM服务。

service 方式
开启： service iptables start
关闭： service iptables stop

Hadoop2.5.2集群部署（完全分布式）的更多相关文章

Ubuntu下用hadoop2.4搭建集群（伪分布式）
要真正的学习hadoop,就必需要使用集群,可是对于普通开发人员来说,没有大规模的集群用来測试,所以仅仅能使用伪分布式了.以下介绍怎样搭建一个伪分布式集群. 为了节省时间和篇幅,前面一些步骤不再叙述. ...
关于Linux单机、集群部署FastDFS分布式文件系统的步骤。
集群部署:2台tarcker服务器,2台storage服务器. 192.168.201.86 ---------(trackerd+storage+nginx) 192.168.201.87 ...
Hadoop-2.2.0集群部署时live nodes数目不对的问题
关于防火墙,hadoop本身配置都确定没任何问题,集群启动不报错,但打开50070页面,始终live nodes数目不对,于是我尝试/etc/hosts文件配置是否存在逻辑的错误: 127.0.0.1 ...
配置MapReduce插件时，弹窗报错org/apache/hadoop/eclipse/preferences/MapReducePreferencePage : Unsupported major.minor version 51.0（Hadoop2.7.3集群部署）
原因: hadoop-eclipse-plugin-2.7.3.jar 编译的jdk版本和eclipse启动使用的jdk版本不一致导致. 解决方案一: 修改myeclipse.ini文件即可解决. ...
分布式Hbase-0.98.4在Hadoop-2.2.0集群上的部署
fesh个人实践,欢迎经验交流!本文Blog地址:http://www.cnblogs.com/fesh/p/3898991.html Hbase 是Apache Hadoop的数据库,能够对大数据提 ...
超详细从零记录Hadoop2.7.3完全分布式集群部署过程
超详细从零记录Ubuntu16.04.1 3台服务器上Hadoop2.7.3完全分布式集群部署过程.包含,Ubuntu服务器创建.远程工具连接配置.Ubuntu服务器配置.Hadoop文件配置.Had ...
基于Hadoop2.7.3集群数据仓库Hive1.2.2的部署及使用
基于Hadoop2.7.3集群数据仓库Hive1.2.2的部署及使用 HBase是一种分布式.面向列的NoSQL数据库,基于HDFS存储,以表的形式存储数据,表由行和列组成,列划分到列族中.HBase ...
Hadoop(HA)分布式集群部署
Hadoop(HA)分布式集群部署和单节点namenode部署其实一样,只是配置文件的不同罢了. 这篇就讲解hadoop双namenode的部署,实现高可用. 系统环境: OS: CentOS 6.8 ...
Hadoop分布式集群部署(单namenode节点)
Hadoop分布式集群部署系统系统环境: OS: CentOS 6.8 内存:2G CPU:1核 Software:jdk-8u151-linux-x64.rpm hadoop-2.7.4.tar. ...

随机推荐

JavaScript闭包简单学习
因为实验室项目要用,所以最近在学习OpenLayers,但是从来没有做过前端呀,坑爹的,硬着头皮上吧反正正好借这个机会学习一下JS,本来对这门语言也挺感兴趣的,多多少少写过一下JS代码了,差不多学一 ...
记录使用antd时样式不生效的问题
最近在学webpack,就配置了一个react的运行环境,为了偷懒使用了antd npm install antd 之后发现竟然tmd没有样式谷歌之后发现好多同学都出现了这个问题,好在最后解决了在 ...
使用 Cordova(PhoneGap)构建Android程序
移动终端开发随着智能手机的普及变得越来越热,什么项目都想移动一把,但反观要去学这些各个终端的控件使用,实属不易,又特别是每个终端的控件及所用语言都各不相同,使得这种学习变得更加困难. 有没有一种简单的 ...
poj_1091_跳蚤
Z城市居住着很多只跳蚤.在Z城市周六生活频道有一个娱乐节目.一只跳蚤将被请上一个高空钢丝的正中央.钢丝很长,可以看作是无限长.节目主持人会给该跳蚤发一张卡片.卡片上写有N+1个自然数.其中最后一个是M ...
Mybatis中多个参数的问题&&动态SQL&&查询结果与类的对应
### 1. 抽象方法中多个参数的问题在使用MyBatis时,接口中的抽象方法只允许有1个参数,如果有多个参数,例如: Integer updatePassword( Integer id, Str ...
根据坐标计算距离（mysql函数）
CREATE DEFINER=`root`@`localhost` FUNCTION `getDistance`(lng1 ) BEGIN DECLARE result double; DECLARE ...
查找mysql中未提交的事务
1.查找未提交事务在mysql中运行: select t.trx_mysql_thread_id from information_schema.innodb_trx t 2.删除线程 kill ...
Docker（三）：部署软件
Docker的镜像文件可以在镜像仓库中进行搜索. 部署软件目录导航: 常用命令部署 Tomcat 部署 MySQL 部署 Oracle 常用命令 docker的常用命令如下: docker -v , ...
FastDFS轻量级分布式文件系统部署
FastDFS介绍 FastDFS 是一个由 C 语言实现的开源轻量级分布式文件系统,作者余庆,支持 Linux.FreeBSD.AID 等 Unix 系统,解决了大数据存储和读写负载均衡等问题,适合 ...
Ubuntu设置代理服务器
由于公司网络的原因,apache的网站访问不了,对于需要经常访问apache网站查看文档的我,最近想了一种方法,在自己的阿里云服务器上搭建一个代理服务器.经过查资料,最终决定使用TinyProxy. ...

Hadoop2.5.2集群部署（完全分布式）

环境介绍

硬件环境

软件环境

主机配置规划

设置主机名

配置免密码登录SSH

各节点安装JDK

Hadoop安装

解压

添加环境变量

设置环境变量立即生效

配置Hadoop文件

运行Hadoop

格式化

启动Hadoop

停止Hadoop

JPS查看进程

通过浏览器查看集群运行状态

测试Hadoop

搭建中遇到问题总结

Hadoop2.5.2集群部署（完全分布式）的更多相关文章

随机推荐

热门专题