Hadoop HA方案调研

原文成文于去年（2012.7.30），已然过去了一年，很多信息也许已经过时，不保证正确，与Hadoop学习笔记系列一样仅为留做提醒。

-----

针对现有的所有Hadoop HA方案进行调研，以时间为线，总结如下：

1. BackupNode方案：

08年时开源社区已经开始着手解决Namenode单点问题，随之出来的第一个方案是BackupNode方案。基于0.20版，并合并进入0.21版；参见Apache JIRA HADOOP-4539 [1]

该方案思路为：将NameNode产生的editLog（对文件系统元数据的修改）通过网络复写到BackupNode的内存中，再由BackupNode对接收的editLog重放操作，从而保持BackupNode与NameNode的image数据结构一致。

该方案的问题在于：

切换时间长；因为复写的editLog中不包含block信息，因而BackupNode内存中blockMap为空，在切换后需要等待DataNode重连并重传所有的block信息；需要时间在分钟级；
没有提供自动failover机制；BackupNode是对NameNode的元数据进行实时备份，可以用来提供只读服务，却不能在NameNode失败后接替其工作；可以人工介入修改ip从而恢复服务；

注：
如果要减少切换时间，需要再增加逻辑以实现对block信息的转发，增加代码复杂性同时会遇到缓存、流控等问题，Facebook的AvatarNode方案因这些原因考虑而放弃了block信息的转发[4]；

2. DRBD LinuxHA方案：

DRBD技术很早已有，用于Hadoop HA方案的时间不可考；

DRBD LinuxHA方案通过操作系统级的高可用配置实现NameNode节点的高可用，它将NameNode本应写入本地磁盘的editLog和fsImange文件通过DRBD方案写到了其它节点的磁盘上，从而保证元数据信息不丢失；配置方案参考[2]；

该方案信赖LinuxHA的心跳机制实现节点监控和切换，但切换时间很长，因为备机在切换后需要重新加入image并等待DataNode重连接并重传block信息；

在AvatarNode方案说明中，AvatarNode作者对DRBD方案的评价是：冷备(code standby)方案，耗时极长，在一个有50,000,000文件的集群中，通过DRBD方案切换需要约1h；

3. AvatarNode方案：

Facebook内部使用的热备(host standby)HA方案，在10年贡献到开源社区，参见Apache JIRA HDFS-976[3]；当时Facebook Hadoop集群规模为1200节点12PB参见[4]；

AvatarNode方案基于apache hadoop 0.20版，其尽量不修改原有NameNode代码，在现有代码之上通过封装已有代码和通过成熟的技术实现高可用。

AvatarNode方案的思路为：

使用一个共享的NFS服务来保存NameNode（Primary Avatar）的editLog，Standby Avatar从editLog尾部读取最新的修改，重放进自己的内存数据结构；
AvatarDatanode同时向Primary和Standby汇报block信息（包括blockReport和blockReceived）；因block信息的转发需要解决缓存、流控等问题，会极大增加代码复杂度，因而放弃转发的实现；
客户端通过虚拟ip访问NameNode服务，当Standby Avatar与Primary Avatar进行切换时，通过配置该ip实现对客户端访问的透明；

该方案的优点为：切换时间很快，在秒级范围实现切换（<1分钟）；

该方案的缺点为：

不实现自动failover，切换由OP人工介入；作者对该点的解释为：Hadoop集群的停机主要是由升级需要引起的，因而升级时由OP手工进行failover操作，从而也不需要担心脑裂问题；AvatarNode方案不会应对意外故障导致的集群停机；（自从公司线上Hadoop集群4月19号完成内存GC bug修复稳定之后，6次停机（数据来源OP升级通告）中仅有一次是由意外故障导致，其余都因为NameNode升级操作；AvatarNode方案作者说法与公司集群状况基本吻合；）
依赖NFS服务，
- 　　NFS服务读写性能差；AvatarNode方案作者对该点解释为：Facebook使用了一台NetApp的NAS服务器保存AvatarNode的元数据，性能很高。
- 　　HA风险转嫁给NFS服务器；NFS服务器停机带来的后果未知；
- 　　大多Linux的NFS客户端实现有问题，如果不进行正确的配置，在某些意外情况下（NFS服务器停机）NameNode可能被卡住且无法恢复；

4. HDFS HA Branch方案系列

11年HDFS HA成为一条独立的分支进行讨论研究并最終合并进入0.23版主干，参见Apache JIRA HDFS-1623 [5]；

该方案考虑了多种可选的解决途径，例如：使用共享NFS存储或editLog复写、使用LinuxHA ResourceManager 或 Zookeeper FailoverController；甚至之前的BackupNode方案也被包含其中；

最被看好的是BookKeeper[6]复写方案＋Zookeeper FailoverController；

BookKeeper复写方案依赖BookKeeper团队实现的分布式日志服务来保存NameNode的editLog；

Zookeeper FailoverController可以实现对Active/Standby NameNode的状态监控和主从选举；

该方案对block信息的处理与AvatarNode类似：DataNode都明确知道系统中所有NameNode的存在，向它们分别汇报block信息；

优点：社区主干代码，支持较好；可选择性丰富；

缺点：根据不同子方案需要单独评估缺点；引入模块较多，分析评估升级代价较大；

注：

CDH4方案来源于HA Branch方案系列，在元数据存储上采用了共享NFS存储的方式[7]，缺点与AvatarNode相同；

5. Quorum-based方案

因为主干HA方案中对NFS或BookKeeper的依赖问题，12年时开源社区又出现了一套基于Quorum的HA方案，见HDFS-3077[8]；

该方案的思想是：

集群中启动三个JournalNode；
集群中每个NameNode上同时运行一个QuorumJournalManager组件；通过Hadoop IPC向JournalNode写入editLog；
当QJM写editLog前，首先要保证没有其它QJM在写editLog，从而保证当发生脑裂时，editLog的写入依然是安全的；这一点的实现是通过QJM成为写者时（其NameNode成为Active节点时）分配唯一的epoch号，并广播给所有JournalNode，JournalNode在执行写editLog操作前对請求者QJM的epoch号进行检查；epoch号的申请也是经过JN和QJM的仲裁同意的；
当QJM写editLog前，同样需要保证之前editLog在所有JN上一致；例如如果一个QJM写过程中发生失败，则几个JN的editLog的尾部很可能不同，新的QJM成为写者时，需要对这些不一致的editLog进行同步，仲裁后保证一致；
当QJM写editLog时，只要JN中的大部分（2/3）成功，就算成功；可以继续执行后续操作；

仅关心了editLog的存储问题，其它技术细节默认沿用主干HA方案；

优点：对第三方模块、特殊硬件无依赖；

缺点：仍在开发中，无法评估；

参考：

［1］：Apache JIRA HADOOP-4539，https://issues.apache.org/jira/browse/HADOOP-4539

［2］：Cloudera hadoop-ha-configuration Blog，http://www.cloudera.com/blog/2009/07/hadoop-ha-configuration/

［3］：Apache JIRA HDFS-976，https://issues.apache.org/jira/browse/HDFS-976

［4］：AvatarNode Description，https://issues.apache.org/jira/secure/attachment/12435811/AvatarNodeDescription.txt

［5］：Apache JIRA HDFS-1623，https://issues.apache.org/jira/browse/HDFS-1623

［6］：BookKeeper，http://zookeeper.apache.org/bookkeeper/

［7］：CDH4 HA，http://www.cloudera.com/blog/2012/03/high-availability-for-the-hadoop-distributed-file-system-hdfs/

［8］：Apache JIRA HDFS-3077，https://issues.apache.org/jira/browse/HDFS-3077

Hadoop HA方案调研的更多相关文章

使用Nginx+Lua代理Hadoop HA
一.Hadoop HA的Web页面访问 Hadoop开启HA后,会同时存在两个Master组件提供服务,其中正在使用的组件称为Active,另一个作为备份称为Standby,例如HDFS的NameNo ...
Hadoop HA高可用性架构和演进分析（转）
1.概况截至目前,Apache Hadoop版本分为两代,我们将第一代Hadoop称为Hadoop 1.0,第二代Hadoop称为Hadoop 2.0.前者主要有如下几种实现方式:1)社区版本基于S ...
hadoop2.x通过Zookeeper来实现namenode的HA方案以及ResourceManager单点故障的解决方案
我们知道hadoop1.x之前的namenode存在两个主要的问题:1.namenode内存瓶颈的问题,2.namenode的单点故障的问题.针对这两个问题,hadoop2.x都对它进行改进和解决.其 ...
Hadoop技术之Hadoop HA 机制学习
欢迎大家前往腾讯云技术社区,获取更多腾讯海量技术实践干货哦~ 作者:温球良导语最近分享过一次关于Hadoop技术主题的演讲,由于接触时间不长,很多技术细节认识不够,也没讲清楚,作为一个技术人员,本 ...
hadoop HA 详解
NameNode 高可用整体架构概述在 Hadoop 1.0 时代,Hadoop 的两大核心组件 HDFS NameNode 和 JobTracker 都存在着单点问题,这其中以 NameNode ...
hadoop HA学习
一 HDFS HA架构图二 HDFS HA组件 Active NameNode和Standby NameNode 在NameNode的HA方案中有两个不同状态的NameNode,分别为活跃态(Act ...
Hadoop HA 高可用集群搭建
一.首先配置集群信息 vi /etc/hosts 二.安装zookeeper 1.解压至/usr/hadoop/下 .tar.gz -C /usr/hadoop/ 2.进入/usr/hadoop/zo ...
Hadoop HA 与 Federation
最近在做Hadoop上应用开发,需要和HA集成,active name node 切换不能影响应用的运行.在研究HA背景的同时,发现HA和Federation 配置中共用了nameservices 的 ...
docker搭建hadoop HA出错问题总结记录。
错误1: ssh连接云主机: ssh root@39.106.xx.xx 报错:THE AUTHENTICITY OF HOST XX CAN’T BE ESTABLISHED 解决办法: ssh - ...

随机推荐

浅谈JS的变量提升
JS的解析机制,是JS的又一大重点知识点,在面试题中更经常出现,今天就来唠唠他们的原理.首先呢,我们在我们伟大的浏览器中,有个叫做JS解析器的东西,它专门用来读取JS,执行JS.一般情况是存在作用域就 ...
centos7安装Lua
网官有介绍安装:http://www.lua.org/start.html 由于之前我遇到过致命错误并纪录在:https://blog.csdn.net/bingbingtea/article/det ...
Tx.Origin 用作身份验证
Solidity 中有一个全局变量,tx.origin,它遍历整个调用栈并返回最初发送调用(或交易)的帐户的地址.在智能合约中使用此变量进行身份验证会使合约容易受到类似网络钓鱼的攻击. 有关进一步阅读 ...
Ext create动态加载分析
主要涉及到Ext.js Inventory.js ClassManager.js Class.js Loader.js Boot.js 在ClasManager.js的Ext.create中 Ext. ...
[LeetCode] 490. The Maze_Medium tag: BFS/DFS
There is a ball in a maze with empty spaces and walls. The ball can go through empty spaces by rolli ...
[LeetCode] 153. Find Minimum in Rotated Sorted Array_Medium tag: Binary Search
Suppose an array sorted in ascending order is rotated at some pivot unknown to you beforehand. (i.e. ...
Python list 和 tuple 使用小记
list和tuple是Python内置的有序集合,一个可变,一个不可变.根据需要来选择使用它们. 1.内置数据类型,列表List >>> appleVersion = ['apple ...
【转360】KB4041678 Windows 仅安全更新(2017.10) 补丁更新后执行SQL出错! http://bbs.360.cn/thread-15201531-1-1.html
把EXCEL20003表数据导入到MDB数据库中sql命令语句\"SELECT * INTO 表 FROM [Excel 8.0;DATABASE=C:\\1.xls].[Sheet1$]\ ...
android 通过页面上关键字快速定位代码
这里定位微信关于页面, 当然可以直接获取当前最顶层activity 反编译apk后搜索 strings.xml,找到对应id 搜索文件到用到id对应的成员变量,通常是在R*.smali文件中字符 ...
python+appium+PyCharm==自动化测试APP环境
1.点击SDK下面的uiautomatorviewer 2.启动夜神3.启动adb--->在cmd adb -version adb connect 127.0.0.1:62001 这里的配置环 ...

Hadoop HA方案调研

Hadoop HA方案调研的更多相关文章

随机推荐

热门专题