Hadoop HA 架构

为什么要用集群?

企业里面,多台机器 伪分布式 每一个角色都是一个进程

HDFS:

NN

SNN

DN

YARN:

RM

NM

大数据所有组件, 都是主从架构 master-slave

HDFS读写请求都是先到NN节点,

但是,HBase 读写请求不是经过master, 建表和删除表是需要经过master

NN节点挂了,就不能提供对外服务  (-put,-get)

需要配置两个NN节点(实时的,任何时刻只有一台active对外,

另外一台是standby,做实时备份,

随时准备着从standby切换到active状态,对外服务)

NN1 active     11:00点,挂了    hdfs://ip1:8020/   代码,shell脚本

NN2 standby    active         hdfs://ip2:8020/

当前对外提供服务的只有一台机器提供,另外一台机器随时准备着

SNN 1h checkpoint  提供备份(fsimage+editlog)

如果有了HA,就不需要SNN了

假设11:00点,NN1挂了,NN2会在一刹那间,切换成active,对外服务.

无感知的

命名空间    nameservice1    CDH

           dw

NN节点有两个文件: fsimage editlog(读写请求记录)

SNN 用于checkpoint,合并fsimage+editlog

HA进程:  3 台机器

hadoop001:  ZK   NN     ZJFC    JN   DN

hadoop002:  ZK   NN     ZKFC    JN   DN

hadoop003:  ZK          ZKFC    JN    DN

JounalNode(实时日志记录): HDFS数据量及请求量

HDFS请求比较频繁,就要记录数据, 几十T,就搞多一点

HDFS很悠闲,搞个 7台即可. 如果机器20台,和ZK保持一致

ZKFC  手动切换

ZK集群: 做选举 (leader(active), follower(standby))

生产上节点部署:

20台节点: 5台ZK (2n+1)  奇数

20~~100台节点:  7/9/11台ZK

>100台节点:  11台ZK

但是:

1.不是说ZK节点越多越好

2.zk越多,当我们选举的时候,性能很慢

几百台节点,ZK部署的机器就它一个进程,任务很重,还有其他进程,会消耗资源,会影响ZK选举的性能.

32G / 256G

ZK是最底层的,如果ZK进程繁忙,导致不能进行选举,就不能对外提供服务

standby 如果 不能切换到 active 状态,就是ZK的问题

进程: ps -ef

线程: 存在于进程中

ZKFC: Zookeeper Failover Control (Zookeeper故障转移控制)

当我们通过Cliecnt提交我们的请求的时候,读写,通过ruozeg6 命名空间进行找去找active,找到后,在那个机器上面进行真正的请求. 读写, 此时就是HDFS的读写流程. editlog自己写一份,同时写一份都JounalNode,同时standby的NN节点,会进行重演, 此时DN会向相隔NN发送心跳和快报告.

参数和时间是多少  可以去官网找配置文件 (这两个参数去找,进行整理)

ZKFC,当一台机器挂了,通过zk进行选举,zk会通知ZKFC,切换成active状态.

ZKFC会定期向zk发送心跳.

-------------------------------------

HA是为了解决单点问题

通过JN集群共享状态

通过ZKFC选举active

监控状态,自动备援

DN: 同时向NN1 NN2发送心跳和快报告

ACTIVE NN:  操作记录写到自己的editlog,

            同时写到JN集群

            接收DN的心跳和快报告

STANDBY NN: 同时接受JN集群的日志,显式读取执行log操作(重演)

            使得自己的元数据和ACTIVE NN节点保持一致 (备份元数据)

            同时接收心跳和快报告

JounalNode: 用于ACTIVE NN 与STANDBY NN节点的 数据同步

            一般部署2n+1

ZKFC: 单独的进程

        监控NN健康状态

        向zk集群定期发送心跳,使得自己可以被选举;随时准备着

        当自己被zk选举为active的时候,zkfc进程通过RPC协议调用,使NN节点的状态变为active. 只有active状态,才能对外提供实时服务. 它是无感知的 standby状态是不行的.

Hadoop HA 架构的更多相关文章

hadoop HA架构安装部署（QJM HA）
###################HDFS High Availability Using the Quorum Journal Manager########################## ...
hadoop HA架构
什么是Hadoop? http://hadoop.apache.org/ 解决问题:·海量数据的存储 (HDFS)·海量数据的分析 (MapReduce)·资源管理调度 (YARN) 集群规划:(这里 ...
Hadoop技术之Hadoop HA 机制学习
欢迎大家前往腾讯云技术社区,获取更多腾讯海量技术实践干货哦~ 作者:温球良导语最近分享过一次关于Hadoop技术主题的演讲,由于接触时间不长,很多技术细节认识不够,也没讲清楚,作为一个技术人员,本 ...
hadoop HA 详解
NameNode 高可用整体架构概述在 Hadoop 1.0 时代,Hadoop 的两大核心组件 HDFS NameNode 和 JobTracker 都存在着单点问题,这其中以 NameNode ...
hadoop HA学习
一 HDFS HA架构图二 HDFS HA组件 Active NameNode和Standby NameNode 在NameNode的HA方案中有两个不同状态的NameNode,分别为活跃态(Act ...
hadoop HA分布式集群搭建
概述 hadoop2中NameNode可以有多个(目前只支持2个).每一个都有相同的职能.一个是active状态的,一个是standby状态的.当集群运行时,只有active状态的NameNode是正 ...
Hadoop(HA)分布式集群部署
Hadoop(HA)分布式集群部署和单节点namenode部署其实一样,只是配置文件的不同罢了. 这篇就讲解hadoop双namenode的部署,实现高可用. 系统环境: OS: CentOS 6.8 ...
Hadoop HA 深度解析
社区hadoop2.2.0 release版本开始支持NameNode的HA,本文将详细描述NameNode HA内部的设计与实现. 为什么要Namenode HA? 1. NameNode High ...
1、hadoop HA分布式集群搭建
概述 hadoop2中NameNode可以有多个(目前只支持2个).每一个都有相同的职能.一个是active状态的,一个是standby状态的.当集群运行时,只有active状态的NameNode是正 ...

随机推荐

JDK1.8新特性-Lambda表达式
Lambda 表达式 Lambda 表达式,也可称为闭包,它是推动 Java 8 发布的最重要新特性. Lambda 允许把函数作为一个方法的参数(函数作为参数传递进方法中). 使用 Lambda 表 ...
Aery的UE4 C++游戏开发之旅（1）基础对象模型
目录 UObject Actor种类 AActor APawn(可操控单位) AController(控制器) AGameMode(游戏模式) AHUD(HUD) ... Component种类 UA ...
关于使用DB2数据库的项目后台报-420错误码的问题
### Error querying database. Cause: com.ibm.db2.jcc.am.SqlDataException: DB2 SQL Error: SQLCODE=-4 ...
理解OAuth2
目录理解OAuth2 Oatuh2用来做什么 Oauth2具体做法 Oauth2的流程授权码模式第三方引导用户跳转至认证服务器的授权页面用户选择是否给予授权认证服务器生成code并且让用户重 ...
jQuery实现类似Chrome控制台可拖拽改变宽度的样式
最近项目进程紧张,没法再愉快的网上冲浪了因为项目需要实现一个页面上可拖拽改变div宽度的功能,类似效果如Chrome的右侧调试台样式: 大概思路为: 1.使用mousemove()方法,将鼠标的位置 ...
C# 网络编程之简易聊天示例
还记得刚刚开始接触编程开发时,傻傻的将网站开发和网络编程混为一谈,常常因分不清楚而引为笑柄.后来勉强分清楚,又因为各种各样的协议端口之类的名词而倍感神秘,所以为了揭开网络编程的神秘面纱,本文尝试以一个 ...
Image 鼠标拖拽与鼠标中键的缩放
一.Image在窗体上拖拽,势必会用到鼠标的三个事件(MouseDown,MouseUp,MouseMove),以左键为例,PictureBox为载体 Point mouseDownPoint = n ...
axios统一接口管理及优化
之前我写了一篇文章,分享了自己的项目中对于接口管理的方法.总结下来就是:定义接口文件--withAxios导出--调用接口方法.这样实现了接口的统一管理和调用接口的语义化与简单化. 根据在项目的使用, ...
Pinpoint-agent监控springboot编译的jar启动方式
由于springboot在打包发版时已经将tomcat容器内嵌到jar文件中,可以通过以下命令来使pinpoint-agent监控生成的jar服务 java -javaagent:D:\Softwar ...
2019/12/13学习内容摘要（Linux磁盘管理①）
一,查看磁盘或目录容量 1.命令df 查看已挂载磁盘的总容量,使用容量,剩余容量等,可以不加任何参数,默认以KB为单位选项[-i] 表示查看inodes的使用情况 [-h] 表示用合适的单位显示 ...

Hadoop HA 架构

Hadoop HA 架构的更多相关文章

随机推荐

热门专题