大数据小白系列—

这里是大数据小白系列，这是本系列的第二篇，介绍一下HDFS中SecondaryNameNode、单点失败（SPOF）、以及高可用（HA）等概念。

上一篇我们说到了大数据、分布式存储，以及HDFS中的一些基本概念，为了能更好的理解后续介绍的内容，这里先补充介绍一下NameNode到底是怎么存储元数据的。

首先，在启动的时候，将磁盘中的元数据文件读取到内存，后续所有变化将被直接写入内存，同时被写入一个叫Edit Log的磁盘文件。（如果你熟悉关系型数据库，这个Edit Log有点像Oracle Redo Log，这是题外话）。

Q: 为什么不把这些变化直接写到磁盘上的元数据中，使磁盘上的元数据保持最新呢？Edit Log是不是多此一举？

A: 这个主要是基于性能考虑，由于对Edit Log的写是“顺序写”（追加），对元数据的写是“随机写”，两者在磁盘上表现出来的性能有相当大的差异。有兴趣的同学可以搜索学习一下磁盘相关原理哦。

上面这个方案，带来了一些明显的副作用。

NameNode长期运行，不停地向Edit Log追加内容，导致它变得巨大无比。
NameNode在重启时，需要使用Edit Log更新元数据文件，当Edit Log太大时，这一步骤就会耗费很长的时间。

为了消除这些副作用，HDFS中引入了另外一个角色，SecondaryNameNode。

它定期（比如每小时）从NameNode上抓取Edit Log，使用它更新元数据文件，并把最新的元数据文件写回到NameNode。

说完了SecondaryNameNode的职责之后，大家应该明白，它并不是一个“备用NameNode”，其实这是典型的命名不当，它应该被命名成“Checkpoint NameNode”才比较恰当。

接下来我们来说说HDFS中的单点失败问题（SPOF, Single Point Of Failure），即，当NameNode掉线之后，整个HDFS集群就变得不可用了。为解决这个问题，Hadoop 2.0中真正引入了一个“备用NameNode”。

对元数据的修改首先发生在NameNode，并被写入某个“共享位置”，备用NameNode将从该位置获取Edit Log。
DataNode节点们同时向两台NameNode汇报状态。

由于这两点，两台NameNode上的元数据将一直保持同步。这将保证当NameNode掉线后，用户可以立即切换到备用NameNode，系统将保持可用。

由于备用NameNode比较空闲（不用处理用户请求），系统又给它安排了另外一份工作——定期使用Edit Log更新元数据文件，也就是说它接手了SecondaryNameNode的工作。

所以，在HA环境中，我们就不再需要SecondaryNameNode了。

今天就到这里，下一篇准备介绍JournalNode、NameNode选举等概念，Cheers！

公众号“程序员杂书馆”，专注大数据，欢迎关注，每位关注者将获赠《Spark快速大数据分析》纸质书一本！

大数据小白系列——HDFS(2)的更多相关文章

大数据小白系列——HDFS(4)
这里是大数据小白系列,这是本系列的第四篇,来看一个真实世界Hadoop集群的规模,以及我们为什么需要Hadoop Federation. 首先,我们先要来个直观的印象,这是你以为的Hadoop集群: ...
大数据小白系列——HDFS(3)
这里是大数据小白系列,这是本系列的第三篇,介绍HDFS中NameNode选举,JournalNode等概念. 上一期我们说到了为解决NameNode(下称NN)单点失败问题,HDFS中使用了双NN的机 ...
大数据小白系列——HDFS(1)
[注1:结尾有大福利!] [注2:想写一个大数据小白系列,介绍大数据生态系统中的主要成员,理解其原理,明白其用途,万一有用呢,对不对.] 大数据是什么?抛开那些高大上但笼统的说法,其实大数据说的是两件 ...
大数据小白系列——MR(1)
一部编程发展史就是一部程序员偷懒史,MapReduce(下称MR)同样是程序员们用来偷懒的工具. 来了一份大数据,我们写了一个程序准备分析它,需要怎么做? 老式的处理方法不行,数据量太大时,所需的时间 ...
大数据小白系列 —— MapReduce流程的深入说明
上一期我们介绍了MR的基本流程与概念,本期稍微深入了解一下这个流程,尤其是比较重要但相对较少被提及的Shuffling过程. Mapping 上期我们说过,每一个mapper进程接收并处理一块数据,这 ...
大数据学习系列之四 ----- Hadoop+Hive环境搭建图文详解(单机)
引言在大数据学习系列之一 ----- Hadoop环境搭建(单机) 成功的搭建了Hadoop的环境,在大数据学习系列之二 ----- HBase环境搭建(单机)成功搭建了HBase的环境以及相关使用 ...
大数据学习系列之五 ----- Hive整合HBase图文详解
引言在上一篇大数据学习系列之四 ----- Hadoop+Hive环境搭建图文详解(单机) 和之前的大数据学习系列之二 ----- HBase环境搭建(单机) 中成功搭建了Hive和HBase的环 ...
大数据学习系列之六 ----- Hadoop+Spark环境搭建
引言在上一篇中大数据学习系列之五 ----- Hive整合HBase图文详解 : http://www.panchengming.com/2017/12/18/pancm62/ 中使用Hive整合 ...
大数据学习系列之七 ----- Hadoop+Spark+Zookeeper+HBase+Hive集群搭建图文详解
引言在之前的大数据学习系列中,搭建了Hadoop+Spark+HBase+Hive 环境以及一些测试.其实要说的话,我开始学习大数据的时候,搭建的就是集群,并不是单机模式和伪分布式.至于为什么先写单 ...

随机推荐

pytorch:修改预训练模型
torchvision中提供了很多训练好的模型,这些模型是在1000类,224*224的imagenet中训练得到的,很多时候不适合我们自己的数据,可以根据需要进行修改. 1.类别不同 # codin ...
SpringBoot集成Shiro
Shiro是一个安全框架,控制登陆,角色权限管理(身份认证.授权.回话管理.加密) Shiro不会去维护用户,维护权限:这些需要通过realm让开发人员自己注入 1.在pom.xml中引入shiro的 ...
react 为组件添加样式
width/height/fontSize:可以直接写数字: style={ width:200,height:200 } 其他带数字的可以:数字+'px' style={ lineHeight:20 ...
在centos6.8上源码安装MySQL
1.安装环境:软件包:mysql-5.6.31.tar.gz 需求相关选项: 安装基目录basedir:/mydb/mysql31数据存放目录datadir:/mydb/mysql31/data端口号 ...
jQuery核心方法
1.$(document.body).css( "background", "black" ); 2.$(myForm.elements).hide():隐藏表 ...
jenkins默认会存放目录
jenkins默认会存放在用户主目录下的.jenkins文件夹中如:Linux root用户:/root/.jenkins 注意:这是linux版本的.windows系统请自行更改.这个值在Jenk ...
论文阅读笔记十：DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs (DeepLabv2)(CVPR2016)
论文链接:https://arxiv.org/pdf/1606.00915.pdf 摘要该文主要对基于深度学习的分割任务做了三个贡献,(1)使用空洞卷积来进行上采样来进行密集的预测任务.空洞卷积可以 ...
任务超时退出的方法 C#
超出时间方法退出.防止卡住. 方法: private static bool ImportTaskTimeout(Action method, int hours) { try { var task ...
微信小程序--代码构成---WXSS 样式
WXSS 样式 WXSS 具有 CSS 大部分的特性,小程序在 WXSS 也做了一些扩充和修改. 新增了尺寸单位.在写 CSS 样式时,开发者需要考虑到手机设备的屏幕会有不同的宽度和设备像素比,采用一 ...
移动端：div在手机页面上随意拖动
<!doctype html> <html> <head> <title>弹窗</title> <meta charset=" ...

大数据小白系列——HDFS(2)

大数据小白系列——HDFS(2)的更多相关文章

随机推荐

热门专题