这里分两部分,第一部分是NameNode HA,第二部分是ResourceManager HA

(ResourceManager HA是hadoop-2.4.1之后加上的)

NameNode HA

1.启动Zookeeper

zkServer.sh start
可以用zkServer.sh status查看状态(看看该节点是不是leader还是follower)

2.在hadoop001上执行,格式化ZooKeeper集群,目的是在ZooKeeper集群上建立HA的相应节点

hdfs zkfc -formatZK

...
15/07/17 14:50:08 INFO ha.ActiveStandbyElector: Successfully deleted /hadoop-ha/appcluster from ZK.
15/07/17 14:50:08 INFO ha.ActiveStandbyElector: Successfully created /hadoop-ha/appcluster in ZK.

验证:zkCli.sh

...
Welcome to ZooKeeper!
2015-07-17 14:51:32,531 [myid:] - INFO [main-SendThread(localhost:2181):ClientCnxn$SendThread@975] - Opening socket connection to server localhost/127.0.0.1:2181. Will not attempt to authenticate using SASL (unknown error)
2015-07-17 14:51:32,544 [myid:] - INFO [main-SendThread(localhost:2181):ClientCnxn$SendThread@852] - Socket connection established to localhost/127.0.0.1:2181, initiating session
JLine support is enabled
2015-07-17 14:51:32,561 [myid:] - INFO [main-SendThread(localhost:2181):ClientCnxn$SendThread@1235] - Session establishment complete on server localhost/127.0.0.1:2181, sessionid = 0x14e9ac4b6a60001, negotiated timeout = 30000 WATCHER:: WatchedEvent state:SyncConnected type:None path:null
[zk: localhost:2181(CONNECTED) 0]

ls /

[rmstore, yarn-leader-election, hadoop-ha, zookeeper]

ls /hadoop-ha

[appcluster]

3.在hadoop001,hadoop002,hadoop003上启动日志程序journalnode

hadoop-daemon.sh start journalnode

starting journalnode, logging to /data/hadoop-2.6.0/logs/hadoop-root-journalnode-hadoop001.out

jps

14183 QuorumPeerMain
14680 Jps
14459 JournalNode

4.格式化NameNode(必须开启JournalNode进程)

hdfs namenode -format

如果不是首次format的话还是把NameNode和DataNode存放数据地址下的数据手动删除一下,否则会造成NameNode ID和DataNode ID不一致,

rm -rf /data/hadoop/storage/hdfs/name/* & rm -rf /data/hadoop/storage/hdfs/data/*

(如果是HDFS联盟,即有多个HDFS集群同时工作,则用hdfs namenode -format -clusterId [clusterID])

5.启动NameNode

hadoop-daemon.sh start namenode

6.把NameNode的数据从hadoop001同步到hadoop002中

注意,在hadoop002(namenode standby)下执行:

hdfs namenode -bootstrapStandby

...
=====================================================
About to bootstrap Standby ID nn2 from:
Nameservice ID: appcluster
Other Namenode ID: nn1
Other NN's HTTP address: http://hadoop001:50070
Other NN's IPC address: hadoop001/**.**.**.**:8020
Namespace ID: 1358416288
Block pool ID: BP-503387195-**.**.**.**-1437119166865
         Cluster ID: CID-51e580f5-f003-463d-ae45-e109a7ec31d4
       Layout version: -60
=====================================================
...

7.启动所有的DataNode

hadoop-daemons.sh start datanode

8.启动Yarn

start-yarn.sh

9.在hadoop001,hadoop002启动ZooKeeperFailoverController(这里不用在hadoop003中启动,因为hadoop003这个节点是纯粹的DataNode)

hadoop-daemon.sh start zkfc

10.验证HA的故障自动转移是否好用

因为用的公司的远程服务器,无法通过web查看NameNode的Standby或者Active状态,只能从指定namenode名称空间的存储地址下看edits文件的更新时间

namenode名称空间在上一节集群配置中设置如下

<property>
<name>dfs.namenode.name.dir</name>
<value>file:///data/hadoop/storage/hdfs/name</value>
</property>

在两个namennode的该路径下分别有两个fsimage文件,fsimage是存储元数据的文件,在Active的NameNode中还会有edit log,并且每对hdfs操作一次 edit log都会更新,从时间的更新就能看出。而Standby NameNode的 edit log不会更新。当Active的NameNode被kill掉之后可以立马在Standby NameNode的name路径下看到最新的edit log更新。这一切都要归功于JournalNode。在journalNode路径下可以看到完整的edit log备份。

小结:

集群启动要特别小心,很容易因为操作顺序不对导致failover失败的。

之前还因为kill掉Hadoop001的NameNode而hadoop002的NameNode的也跟着down掉。导致操作hdfs的时候connection refused。一直在找connection的问题,比如端口、/etc/hosts的问题。结果重新按流程启动了一遍又好了,不知道之前的问题出在哪,莫名其妙,搞的心力憔悴,浪费了不少时间。

所以每一步操作的检查很重要,看看进程、name路径下的edit log更新。

ResourceManager HA

NameNode HA操作完之后我们可以发现只有一个节点(这里是hadoop001)启动,需要手动启动另外一个节点(hadoop002)的resourcemanager。

yarn-daemon.sh start resourcemanager

然后用以下指令查看resourcemanager状态

yarn rmadmin –getServiceState rm1

结果显示Active

而rm2是standby。

验证HA和NameNode HA同理,kill掉Active resourcemanager,则standby的resourcemanager则会转换为Active。

还有一条指令可以强制转换

yarn rmadmin –transitionToStandby rm1

参考文献

[1] hdfs-site.xml:http://www.21ops.com/front-tech/10744.html

[2] yarn-site.xml: http://www.aboutyun.com/thread-10572-1-1.html 评论也值得参考

[3] http://www.cnblogs.com/meiyuanbao/p/3545929.html (没有做到Yarn的HA)

Hadoop HA on Yarn——集群启动的更多相关文章

  1. Hadoop HA on Yarn——集群配置

    集群搭建 因为服务器数量有限,这里服务器开启的进程有点多: 机器名 安装软件 运行进程 hadoop001 Hadoop,Zookeeper NameNode, DFSZKFailoverContro ...

  2. Hadoop HA高可用集群搭建(Hadoop+Zookeeper+HBase)

    声明:作者原创,转载注明出处. 作者:帅气陈吃苹果 一.服务器环境 主机名 IP 用户名 密码 安装目录 master188 192.168.29.188 hadoop hadoop /home/ha ...

  3. Hadoop HA 高可用集群的搭建

    hadoop部署服务器 系统 主机名 IP centos6.9 hadoop01 192.168.72.21 centos6.9 hadoop02 192.168.72.22 centos6.9 ha ...

  4. Hadoop HA 高可用集群搭建

    一.首先配置集群信息 vi /etc/hosts 二.安装zookeeper 1.解压至/usr/hadoop/下 .tar.gz -C /usr/hadoop/ 2.进入/usr/hadoop/zo ...

  5. hadoop - spark on yarn 集群搭建

    一.环境准备 1. 机器: 3 台虚拟机 机器 角色  l-qta3.sp.beta.cn0 NameNode,ResourceManager,spark的master l-querydiff1.sp ...

  6. Hadoop HA高可用集群搭建(2.7.2)

    1.集群规划: 主机名        IP                安装的软件                            执行的进程 drguo1  192.168.80.149 j ...

  7. Hadoop的多节点集群启动,唯独没有namenode进程?(血淋淋教训,一定拍快照)(四十五)

    前言 大家在搭建hadoop集群时,第一次格式化后,一路要做好快照.别随便动不动缺少什么进程,就来个格式化. 问题描述:启动hadoop时报namenode未初始化:java.io.IOExcepti ...

  8. Zookeeper(四)Hadoop HA高可用集群搭建

    一.高可就集群搭建 1.集群规划 2.集群服务器准备 (1) 修改主机名(2) 修改 IP 地址(3) 添加主机名和 IP 映射(4) 同步服务器时间(5) 关闭防火墙(6) 配置免密登录(7) 安装 ...

  9. 大数据学习——yarn集群启动

    启动yarn命令: start-yarn.sh 验证是否启动成功 jps查看进程 http://192.168.74.100:8088页面 关闭 stop-yarn.sh

随机推荐

  1. WebForm控件多字段绑定

    一.这里的多字段绑定是什么意思? 多字段绑定控件其实就是把两个字段显示在一起作为一个字段现在控件上! 可能读者看了可能还是有点懵逼,说的还是比较抽象!的确,光从这上面的确是无法具体到某特定一种情况!那 ...

  2. Tomcat配置JVM参数步骤

    这里向大家描述一下如何使用Tomcat配置JVM参数,Tomcat本身不能直接在计算机上运行,需要依赖于硬件基础之上的操作系统和一个java虚拟机.您可以选择自己的需要选择不同的操作系统和对应的JDK ...

  3. CSS流体(自适应)布局下宽度分离原则——张鑫旭

    by zhangxinxu from http://www.zhangxinxu.com本文地址:http://www.zhangxinxu.com/wordpress/?p=1463 一.简短的前言 ...

  4. YII 用gii生成modules模块下的mvc

    1.生成model ModelPath设置为: application.modules.[moduleName].models 2.生成CURD ModelClass设置为: application. ...

  5. Github的readme.md的排版

    排版格式: 1 标题与文字格式 标题 # 这是 H1 <一级标题> ## 这是 H2 <二级标题> ###### 这是 H6 <六级标题> 文字格式 **这是文字粗 ...

  6. html打造动画【系列2】- 可爱的蛙蛙表情

    先感受一下全部表情包: 在开始之前先安利一个知识点:Flex弹性布局 我们一般做水平三列布局都是用的float方法,将每一块浮动显示在同一行.这种方法会导致元素没有原来的高度属性,要用清除浮动来解决空 ...

  7. VSCode环境

    PythonPython for VSCode Language Support for Java(TM) by Red HatJava Language SupportJava DebuggerJa ...

  8. java 内存分析之堆栈空间

    package Demo; public class Demo { public static void main(String[] args) { Demo demo = new Demo(); ; ...

  9. zookeeper应用 - FIFO 队列 分布式队列

    使用ZooKeeper实现的FIFO队列,这个队列是分布式的. package fifo; import java.util.Collections; import java.util.List; i ...

  10. .net验证是否合法邮箱和ip地址的方式

    通常情况下第一时间会想到使用正则表达式去验证,但由于正则表达式过于复杂或者没有考虑到某些情况,从而导致问题或者判断的效率低.下面通过另一种方式去判断. 判断是否合法邮箱: /// <summar ...