这里分两部分，第一部分是NameNode HA，第二部分是ResourceManager HA

（ResourceManager HA是hadoop-2.4.1之后加上的）

NameNode HA

1.启动Zookeeper

zkServer.sh start
可以用zkServer.sh status查看状态（看看该节点是不是leader还是follower）

2.在hadoop001上执行，格式化ZooKeeper集群，目的是在ZooKeeper集群上建立HA的相应节点

hdfs zkfc -formatZK

...
15/07/17 14:50:08 INFO ha.ActiveStandbyElector: Successfully deleted /hadoop-ha/appcluster from ZK.

15/07/17 14:50:08 INFO ha.ActiveStandbyElector: Successfully created /hadoop-ha/appcluster in ZK.

验证：zkCli.sh

...

Welcome to ZooKeeper!

2015-07-17 14:51:32,531 [myid:] - INFO  [main-SendThread(localhost:2181):ClientCnxn$SendThread@975] - Opening socket connection to server localhost/127.0.0.1:2181. Will not attempt to authenticate using SASL (unknown error)

2015-07-17 14:51:32,544 [myid:] - INFO  [main-SendThread(localhost:2181):ClientCnxn$SendThread@852] - Socket connection established to localhost/127.0.0.1:2181, initiating session

JLine support is enabled

2015-07-17 14:51:32,561 [myid:] - INFO  [main-SendThread(localhost:2181):ClientCnxn$SendThread@1235] - Session establishment complete on server localhost/127.0.0.1:2181, sessionid = 0x14e9ac4b6a60001, negotiated timeout = 30000

WATCHER::

WatchedEvent state:SyncConnected type:None path:null

[zk: localhost:2181(CONNECTED) 0]

ls /

[rmstore, yarn-leader-election, hadoop-ha, zookeeper]

ls /hadoop-ha

[appcluster]

3.在hadoop001,hadoop002,hadoop003上启动日志程序journalnode

hadoop-daemon.sh start journalnode

starting journalnode, logging to /data/hadoop-2.6.0/logs/hadoop-root-journalnode-hadoop001.out

jps

14183 QuorumPeerMain

14680 Jps

14459 JournalNode

4.格式化NameNode(必须开启JournalNode进程)

hdfs namenode -format

如果不是首次format的话还是把NameNode和DataNode存放数据地址下的数据手动删除一下，否则会造成NameNode ID和DataNode ID不一致，

rm -rf /data/hadoop/storage/hdfs/name/* & rm -rf /data/hadoop/storage/hdfs/data/*

（如果是HDFS联盟，即有多个HDFS集群同时工作，则用hdfs namenode -format -clusterId [clusterID]）

5.启动NameNode

hadoop-daemon.sh start namenode

6.把NameNode的数据从hadoop001同步到hadoop002中

注意，在hadoop002(namenode standby)下执行：

hdfs namenode -bootstrapStandby

...

=====================================================

About to bootstrap Standby ID nn2 from:

           Nameservice ID: appcluster

        Other Namenode ID: nn1

  Other NN's HTTP address: http://hadoop001:50070

  Other NN's IPC  address: hadoop001/**.**.**.**:8020

             Namespace ID: 1358416288

            Block pool ID: BP-503387195-**.**.**.**-1437119166865 
　　　　　　　　　Cluster ID: CID-51e580f5-f003-463d-ae45-e109a7ec31d4 
　　　　　　 Layout version: -60 
===================================================== 
...

7.启动所有的DataNode

hadoop-daemons.sh start datanode

8.启动Yarn

start-yarn.sh

9.在hadoop001,hadoop002启动ZooKeeperFailoverController(这里不用在hadoop003中启动，因为hadoop003这个节点是纯粹的DataNode)

hadoop-daemon.sh start zkfc

10.验证HA的故障自动转移是否好用

因为用的公司的远程服务器，无法通过web查看NameNode的Standby或者Active状态，只能从指定namenode名称空间的存储地址下看edits文件的更新时间

namenode名称空间在上一节集群配置中设置如下

<property>

<name>dfs.namenode.name.dir</name>

<value>file:///data/hadoop/storage/hdfs/name</value>

</property>

在两个namennode的该路径下分别有两个fsimage文件，fsimage是存储元数据的文件，在Active的NameNode中还会有edit log，并且每对hdfs操作一次 edit log都会更新，从时间的更新就能看出。而Standby NameNode的 edit log不会更新。当Active的NameNode被kill掉之后可以立马在Standby NameNode的name路径下看到最新的edit log更新。这一切都要归功于JournalNode。在journalNode路径下可以看到完整的edit log备份。

小结：

集群启动要特别小心，很容易因为操作顺序不对导致failover失败的。

之前还因为kill掉Hadoop001的NameNode而hadoop002的NameNode的也跟着down掉。导致操作hdfs的时候connection refused。一直在找connection的问题，比如端口、/etc/hosts的问题。结果重新按流程启动了一遍又好了，不知道之前的问题出在哪，莫名其妙，搞的心力憔悴，浪费了不少时间。

所以每一步操作的检查很重要，看看进程、name路径下的edit log更新。

ResourceManager HA

NameNode HA操作完之后我们可以发现只有一个节点（这里是hadoop001）启动，需要手动启动另外一个节点（hadoop002）的resourcemanager。

yarn-daemon.sh start resourcemanager

然后用以下指令查看resourcemanager状态

yarn rmadmin –getServiceState rm1

结果显示Active

而rm2是standby。

验证HA和NameNode HA同理，kill掉Active resourcemanager，则standby的resourcemanager则会转换为Active。

还有一条指令可以强制转换

yarn rmadmin –transitionToStandby rm1

参考文献

[1] hdfs-site.xml:http://www.21ops.com/front-tech/10744.html

[2] yarn-site.xml: http://www.aboutyun.com/thread-10572-1-1.html 评论也值得参考

[3] http://www.cnblogs.com/meiyuanbao/p/3545929.html (没有做到Yarn的HA)

Hadoop HA on Yarn——集群启动的更多相关文章

Hadoop HA on Yarn——集群配置
集群搭建因为服务器数量有限,这里服务器开启的进程有点多: 机器名安装软件运行进程 hadoop001 Hadoop,Zookeeper NameNode, DFSZKFailoverContro ...
Hadoop HA高可用集群搭建（Hadoop+Zookeeper+HBase）
声明:作者原创,转载注明出处. 作者:帅气陈吃苹果一.服务器环境主机名 IP 用户名密码安装目录 master188 192.168.29.188 hadoop hadoop /home/ha ...
Hadoop HA 高可用集群的搭建
hadoop部署服务器系统主机名 IP centos6.9 hadoop01 192.168.72.21 centos6.9 hadoop02 192.168.72.22 centos6.9 ha ...
Hadoop HA 高可用集群搭建
一.首先配置集群信息 vi /etc/hosts 二.安装zookeeper 1.解压至/usr/hadoop/下 .tar.gz -C /usr/hadoop/ 2.进入/usr/hadoop/zo ...
hadoop - spark on yarn 集群搭建
一.环境准备 1. 机器: 3 台虚拟机机器角色 l-qta3.sp.beta.cn0 NameNode,ResourceManager,spark的master l-querydiff1.sp ...
Hadoop HA高可用集群搭建（2.7.2）
1.集群规划: 主机名 IP 安装的软件执行的进程 drguo1 192.168.80.149 j ...
Hadoop的多节点集群启动，唯独没有namenode进程？（血淋淋教训，一定拍快照）（四十五）
前言大家在搭建hadoop集群时,第一次格式化后,一路要做好快照.别随便动不动缺少什么进程,就来个格式化. 问题描述:启动hadoop时报namenode未初始化:java.io.IOExcepti ...
Zookeeper（四）Hadoop HA高可用集群搭建
一.高可就集群搭建 1.集群规划 2.集群服务器准备 (1) 修改主机名(2) 修改 IP 地址(3) 添加主机名和 IP 映射(4) 同步服务器时间(5) 关闭防火墙(6) 配置免密登录(7) 安装 ...
大数据学习——yarn集群启动
启动yarn命令: start-yarn.sh 验证是否启动成功 jps查看进程 http://192.168.74.100:8088页面关闭 stop-yarn.sh

随机推荐

(译) 在AngularJS中使用的表单验证功能
验证功能是AngularJS里面最酷炫的功能之一,它可以让你写出一个具有良好用户体验的Web应用. 在AngularJS中,有许多用于验证的指令.我们将先学习几个最流行的内置指令,然后再创建一个自定义 ...
通向全栈之路——（4）nginx反向代理配置
1.安装nginx:sudo apt-get install nginx2.新建配置文件:cd /etc/nginx/conf.dsudo vi XXX-cn-8080.conf内容如下:upstre ...
谷歌眼镜能给Apple Watch带来啥前车之鉴？
当下,你想不听到Apple Watch的消息都难.这款智能手表在三月初发布时,有关它的新闻报道铺天盖地.记者们在博客上对发布会的每个阶段进行了实况报道,苹果粉丝们通过博客. 推特和YouTube视频对 ...
SSM配置JDBC错误: cquisition Attempt Failed!!!
异常: 警告: com.mchange.v2.resourcepool.BasicResourcePool$AcquireTask@20ffa401 -- Acquisition Attempt Fa ...
Java生成xlsx格式的excel文件
xlsx格式的写入的数据量据说有百万级,结合实际需要该格式. public static void main(String[] args) throws Exception { OutputStrea ...
悟空模式-java-抽象工厂模式
[一朝,王母娘娘设宴,大开宝阁,瑶池中做蟠桃胜会] 有一天,王母娘娘要在瑶池办party,就需要准备大量的食材.要知道,天上的神仙也分三六九等,九曜星.五方将.二十八宿.四大天王.十二元辰.五方五老. ...
css动画和jq动画的简单区分
有很多不怎么用css3写动画的同学经常会对其中css3的transform,transition,translate,animation,@keyframes等等动画属性混淆错乱,经常使用了发现没有效 ...
ajax 异步请求返回只刷新一次页面
success:function (res) { if (res == "ok") { // $('#dg').bootstrapTable(('refresh')); if (l ...
CentOS7系列--2.2CentOS7中配置SSH服务
CentOS7配置SSH服务 1. SSH配置 1.1. 使用SSH服务更加安全 [root@centos7 ~]# vi /etc/ssh/sshd_config 设置如下 PermitRootLo ...
the cause of StringBuild class
如果我们对字符串进行拼接操作,每次拼接,都会创建一个新的String对象,既耗时,又浪费空间,而StringBuild类可以解决这个问题. 那么StringBuild类是如果解决的呢? 因为Strin ...

Hadoop HA on Yarn——集群启动

NameNode HA

ResourceManager HA

Hadoop HA on Yarn——集群启动的更多相关文章

随机推荐

热门专题