CentOS 6+Hadoop 2.6.0分布式集群安装

1.角色分配

IP	Role	Hostname
192.168.18.37	Master/NameNode/JobTracker	HDP1
192.168.18.35	Slave/DataNode/TaskTracker	HDP2
192.168.18.36	Slave/DataNode/TaskTracker	HDP3

2. 分别安装JDK

mkdir -p /usr/local/setup

#安装JDK

cd /usr/lib

tar -xvzf /usr/local/setup/jdk-7u75-linux-x64.tar.gz

#改名为jdk7，纯属个人偏好

mv jdk1.7.0_75 jdk7

#增加JAVA环境变量

vi /etc/profile

在profile文件末尾，增加如下行：

export JAVA_HOME=/usr/local/lib/jdk7

export CLASSPATH=.:$JAVA_HOME/lib:$CLASSPATH

export PATH=$PATH:$JAVA_HOME/bin

#修改jdk7的文件的相关权限

chown -R root:root jdk7

chmod -R 755 jdk7

#source修改后profile文件

source /etc/profile

#测试JAVA安装

java -version

java version "1.7.0_75"

Java(TM) SE Runtime Environment (build 1.7.0_75-b13)

Java HotSpot(TM) 64-Bit Server VM (build 24.75-b04, mixed mode)

3. 分别修改 /etc/sysconfig/network和/etc/hosts

/etc/hosts这个就是指定IP和主机名的对应关系，/etc/sysconfig/network这个是指定机器的主机名。

/etc/hosts修改:

127.0.0.1 localhost localhost4 localhost4.localdomain4

192.168.18.37 HDP1

192.168.18.35 HDP2

192.168.18.36 HDP3

/etc/sysconfig/network修改：

HOSTNAME=本机的机器名

4. 配置HDP1无密码SSH访问HDP2和HDP3

4.1 配置HDP1本地无密码SSH

#HDP1切到hdp用户配置key。

ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa

cat ~/.ssh/id_dsa.pub >>~/.ssh/authorized_keys

#修改sshd_config

sudo vi /etc/ssh/sshd_config

#删除#号，使如下三行的配置生效

RSAAuthentication yes

PubkeyAuthentication yes

AuthorizedKeysFile .ssh/authorized_keys

#配置权限并重启sshd服务

cd ~/.ssh

chmod 600 authorized_keys

cd ..

chmod -R 700 .ssh

sudo service sshd restart

4.2 配置HDP1到HDP2和HDP3的无密码SSH

#将HDP1的authorized_keys复制到HDP2和HDP3

scp .ssh/authorized_keys hdp@hdp2:~/.ssh/authorized_keys_hdp1

scp .ssh/authorized_keys hdp@hdp3:~/.ssh/authorized_keys_hdp1

#分别在HDP2和HDP3上将authorized_keys_hdp1加入到本地的authorized_keys中

cat ~/.ssh/authorized_keys_hdp1 >> ~/.ssh/authorized_keys

#测试ssh localhost

ssh hdp2

ssh hdp3

Last login: Thu Apr 2 15:22:03 2015 from hdp1

5. 配置三台机的Hadoop文件

首先在Master(HDP1)配置，配置完成后将配置文件复制到Slaves上覆盖。如果有相关的目录，也需要在Slaves创建之。也可以在配置完成后，将整个hadoop安装目录复制到Slaves，并做为安装目录。

在Hadoop安装目录新增如下文件夹：

mkdir dfs dfs/name dfs/data tmp

dfs:用于hdfs的目录

dfs/name：hdfs的NameNode目录

dfs/data：hdfs的DataNode目录

tmp：hdfs的临时文件的目录

/etc/profile

export HADOOP_PREFIX=/usr/local/hadoop

Hadoop安装目录的环境变量

etc/hadoop/hadoop-env.sh

export JAVA_HOME=${JAVA_HOME}

export HADOOP_PREFIX=/usr/local/hadoop

export HADOOP_LOG_DIR=/var/log/hadoop

Hadoop deamon的独立环境变量

etc/hadoop/yarn-env.sh

export JAVA_HOME=${JAVA_HOME}

yarn的独立环境变量

etc/hadoop/slaves，添加Slave机器名

HDP2

HDP3

etc/hadoop/core-site.xml

<name>hadoop.tmp.dir</name>

<value>/usr/local/hadoop/tmp</value>

<description>Abase for other temporary directories.</description>

</property>

<name>fs.default.name</name>

</property>

<name>io.file.buffer.size</name>

</property>

</configuration>

etc/hadoop/hdfs-site.xml

<name>dfs.namenode.secondary.http-address</name>

</property>

<name>dfs.namenode.name.dir</name>

<value>file:/usr/local/hadoop/dfs/name</value>

</property>

<name>dfs.datanode.data.dir</name>

<value>file:/usr/local/hadoop/dfs/data</value>

</property>

<name>dfs.replication</name>

</property>

<name>dfs.nameservices</name>

<value>hadoop-cluster1</value>

</property>

<name>dfs.webhdfs.enabled</name>

</property>

</configuration>

etc/hadoop/mapred-site.xml

<name>mapreduce.framework.name</name>

</property>

<name>mapreduce.jobhistory.address</name>

</property>

<name>mapreduce.jobhistory.webapp.address</name>

</property>

</configuration>

etc/hadoop/yarn-site.xml

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>

<value>org.apache.hadoop.mapred.ShuffleHandler</value>

</property>

<name>yarn.resourcemanager.address</name>

</property>

<name>yarn.resourcemanager.scheduler.address</name>

</property>

<name>yarn.resourcemanager.resource-tracker.address</name>

</property>

<name>yarn.resourcemanager.admin.address</name>

</property>

<name>yarn.resourcemanager.webapp.address</name>

</property>

</configuration>

#将配置好的配置文件复制到Slaves

我选择复制所有配置文件。先复制到对应的Home目录，然后再覆盖到Hadoop安装目录，防止权限改变。

sudo scp -r /usr/local/hadoop/etc/hadoop hdp@HDP2:~/

sudo scp -r /usr/local/hadoop/etc/hadoop hdp@HDP3:~/

#SSH到对应的Slave,然后覆盖etc/hadoop。

我使用先删除后覆盖的方式。

rm -rf /usr/local/hadoop/etc/hadoop/*

mv ~/hadoop/* /usr/local/hadoop/etc/hadoop/

6. 添加Hadoop环境变量

方便调用hadoop/bin和hadoop/sbin中的命令和脚本，不用每次都输入绝对路径。

vi /etc/profile

export PATH=$PATH:/usr/local/hadoop/bin:/usr/local/hadoop/sbin

重新source之

source /etc/profile

7.启动验证

#格式化NameNode

hdfs namenode -format

#启动hdfs

start-hdfs.sh

启动后HDP1上会有NameNode和SecondaryNameNode进程：

[hdp@HDP1 root]$ jps

2991 NameNode

3172 SecondaryNameNode

8730 Jps

Slaves上会有DataNode进程：

[hdp@HDP2 root]$ jps

2131 DataNode

4651 Jps

#启动yarn

start-yarn.sh

启动后，HDP1上会增加ResourceManager进程，Slaves上会增加NodeManager进程。同样可以用JPS观察。

8. 运行自带的WordCount示例

#创建一个要分析的txt

vi /usr/local/hadoop/wc.txt

this is a wordcount app

is a wordcount app

a wordcount app

wordcount app

app

#在hdfs创建相关目录并上传wc.txt

hdfs dfs -mkdir -p /wc/input

hdfs dfs -put wc.txt /wc/input/

#运行之

hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0.jar wordcount /wc/input/wc.txt /wc/output

#查看结果

hdfs dfs -ls /wc/output

hdfs dfs -cat /wc/output/part-r-00000

CentOS 6+Hadoop 2.6.0分布式集群安装的更多相关文章

菜鸟玩云计算之十八：Hadoop 2.5.0 HA 集群安装第1章
菜鸟玩云计算之十八:Hadoop 2.5.0 HA 集群安装第1章 cheungmine, 2014-10-25 0 引言在生产环境上安装Hadoop高可用集群一直是一个需要极度耐心和体力的细致工作 ...
菜鸟玩云计算之十九：Hadoop 2.5.0 HA 集群安装第2章
菜鸟玩云计算之十九:Hadoop 2.5.0 HA 集群安装第2章 cheungmine, 2014-10-26 在上一章中,我们准备好了计算机和软件.本章开始部署hadoop 高可用集群. 2 部署 ...
Hadoop 2.7.3 分布式集群安装
1. 集群规划: 192.168.1.252 palo252 Namenode+Datanode 192.168.1.253 palo253 YarnManager+Datanode+Secondar ...
Spark2.1.0分布式集群安装
一.依赖文件安装 1.1 JDK 参见博文:http://www.cnblogs.com/liugh/p/6623530.html 1.2 Hadoop 参见博文:http://www.cnblogs ...
Kafka0.10.2.0分布式集群安装
一.依赖文件安装 1.1 JDK 参见博文:http://www.cnblogs.com/liugh/p/6623530.html 1.2 Scala 参见博文:http://www.cnblogs. ...
Spark2.2.0分布式集群安装（StandAlone模式）
一.依赖文件安装 1.1 JDK 参见博文:http://www.cnblogs.com/liugh/p/6623530.html 1.2 Scala 参见博文:http://www.cnblogs. ...
hadoop学习之hadoop完全分布式集群安装
注:本文的主要目的是为了记录自己的学习过程,也方便与大家做交流.转载请注明来自: http://blog.csdn.net/ab198604/article/details/8250461 要想深入的 ...
HBase 1.2.6 完全分布式集群安装部署详细过程
Apache HBase 是一个高可靠性.高性能.面向列.可伸缩的分布式存储系统,是NoSQL数据库,基于Google Bigtable思想的开源实现,可在廉价的PC Server上搭建大规模结构化存 ...
（转）ZooKeeper伪分布式集群安装及使用
转自:http://blog.fens.me/hadoop-zookeeper-intro/ 前言 ZooKeeper是Hadoop家族的一款高性能的分布式协作的产品.在单机中,系统协作大都是进程级的 ...

随机推荐

插入算法分别从C，java,python三种语言进行书写
真正学懂计算机的人(不只是“编程匠”)都对数学有相当的造诣,既能用科学家的严谨思维来求证,也能用工程师的务实手段来解决问题——而这种思维和手段的最佳演绎就是“算法”. 作为一个初级编程人员或者说是一个 ...
kali 2016：mount ntfs 分区只读 --Falling back to read-only mount because the NTFS partition is in an unsafe state.
mount ntfs 分区 mount /dev/sdb1 /mnt/d 提示: The disk contains an unclean file system (0, 0).Metadata ke ...
2062326 齐力锋实验四《Java面向对象程序设计Android开发》实验报告
北京电子科技学院(BESTI) 实验报告课程: 程序设计与数据结构班级: 1623 姓名: 齐力锋学号: 20162326 成绩: 指导教师: 娄嘉鹏/王志强实验日期: 2017年5 ...
异步消息postEvent更新界面
其实就是和Qt::QueuedConnection时的信号槽一样,属于异步的. 1.新建QEvent子类 ①.头文件 #ifndef MYEVENT_H #define MYEVENT_H #incl ...
PHP7的五大新特性
如果你使用的是基于 composer 和 PSR-4 的框架,这种写法是否能成功的加载类文件?其实是可以的,composer 注册的自动加载方法是在类被调用的时候根据类的命名空间去查找位置,这种写法对 ...
Luogu-3250 [BJOI2017]魔法咒语(AC自动机，矩阵快速幂)
Luogu-3250 [BJOI2017]魔法咒语(AC自动机,矩阵快速幂) 题目链接题解: 多串匹配问题,很容易想到是AC自动机先构建忌讳词语的AC自动机,构建时顺便记录一下这个点以及它的所有后 ...
记录使用Buildbot遇到的坑
Buildbot Tips Buildbot也是个大坑..我并不熟悉python,偏偏文档又少.这几天使用buildbot出了不少坑.有的解决了,有的绕过去,这里都把它们一一记下来. Force Bu ...
struts2——文件下载（简单的功能）
<%@ page language="java" contentType="text/html; charset=UTF-8" pageEncoding= ...
ZC_02_获取Constructor
1. package reflectionZ; import java.lang.reflect.Constructor; import java.lang.reflect.Type; public ...
解决：pipenv shell报错：AttributeError: 'module' object has no attribute 'run'
利用pipenv shell切换到虚拟环境时,显示报错:AttributeError: 'module' object has no attribute 'run' 可以看到是d:\program\p ...

CentOS 6+Hadoop 2.6.0分布式集群安装

CentOS 6+Hadoop 2.6.0分布式集群安装的更多相关文章

随机推荐

热门专题