HDFS源码分析之FSImage文件内容（一）总体格式

FSImage文件是HDFS中名字节点NameNode上文件/目录元数据在特定某一时刻的持久化存储文件。它的作用不言而喻，在HA出现之前，NameNode因为各种原因宕机后，若要恢复或在其他机器上重启NameNode，重新组织元数据，就需要加载对应的FSImage文件、FSEditLog文件，并在内存中重做FSEditLog文件中的事务条目。本节，我们先来看下FSImage文件格式，及其内部数据是如何组织的。

通过翻看HDFS中加载FSImage文件的代码，从FSNamesystem的loadFSImage()方法开始，我将HDFS集群上的一个FSImage文件放到本地Windows系统中的F盘下，并写了如下方法解析文件，并打印关键内容，如下：

import java.io.IOException;
import java.io.File;
import java.util.List;
import org.junit.Test;
import java.io.ByteArrayInputStream;
import java.io.RandomAccessFile;
import org.apache.hadoop.hdfs.server.namenode.FsImageProto.FileSummary;
import org.apache.hadoop.hdfs.server.namenode.FsImageProto.FileSummary.Section;
public class TestImageUtil {
@Test
public void testImage() {
// 文件头字符串HDFSIMG1对应byte[]
byte[] fileHead = "HDFSIMG1".getBytes();
RandomAccessFile raFile = null;
try {
// 创建文件file，对应为f盘下FSImage文件fsimage_0000000000002311798
File file = new File("f:/fsimage_0000000000002311798");
raFile = new RandomAccessFile(file, "r");
// 文件summary长度域所占大小为4
final int FILE_LENGTH_FIELD_SIZE = 4;
System.out.println("文件summary长度域大小：FILE_LENGTH_FIELD_SIZE=" + FILE_LENGTH_FIELD_SIZE);
// 获取FSImage文件长度
long fileLength = raFile.length();
System.out.println("获取FSImage文件长度：fileLength=" + fileLength);
// 创建文件头byte[]数组fileHeadTmp，用于存储文件头byte[]数组，大小为上述fileHead数组大小
byte[] fileHeadTmp = new byte[fileHead.length];
// 读入文件头至byte[]数组fileHeadTmp
System.out.println("文件从头开始读取" + fileHeadTmp.length + "个byte至byte[]数组fileHeadTmp");
raFile.readFully(fileHeadTmp);
// 获取文件头长度
System.out.println("获取文件头长度：fileHeadLength=" + fileHead.length);
// 将byte[]数组fileHeadTmp转换成字符串fileHeadString
String fileHeadString = new String(fileHeadTmp);
// 验证文件头字符串
System.out.println("fileHeadString=" + fileHeadString);
// 文件file通过raFile.seek()方法定位到文件summary长度字段起始处，即文件大小减去文件summary长度域所占字节数4
raFile.seek(fileLength - FILE_LENGTH_FIELD_SIZE);
System.out.println("文件定位到文件summary长度开始处：" + (fileLength - FILE_LENGTH_FIELD_SIZE));
// 读入一个int，即文件长度summaryLength
int summaryLength = raFile.readInt();
System.out.println("获取文件summary部分长度：summaryLength=" + summaryLength);
// 文件file通过raFile.seek()方法定位到文件summary部分开始处，即文件大小减去文件长度所占字节数4，再减去文件内容总长度
raFile.seek(fileLength - FILE_LENGTH_FIELD_SIZE - summaryLength);
System.out.println("文件定位到文件summary部分开始处：" + (fileLength - FILE_LENGTH_FIELD_SIZE - summaryLength));
// 再从当前位置开始读入文件summary部分内容
// 构造文件长度summaryLength大小的byte[]数组
byte[] summaryBytes = new byte[summaryLength];
// 读取文件内容至数组summaryBytes
raFile.readFully(summaryBytes);
System.out.println("从当前位置开始读入文件summary部分内容至summaryBytes数组");
FileSummary summary = FileSummary
.parseDelimitedFrom(new ByteArrayInputStream(summaryBytes));
System.out.println("解析文件summary部分内容如下：");
System.out.println("1、ondiskVersion=" + summary.getOndiskVersion());
System.out.println("2、layoutVersion=" + summary.getLayoutVersion());
System.out.println("3、codec=" + summary.getCodec());
System.out.println("4、section");
List<Section> sectionsList = summary.getSectionsList();
for (Section section : sectionsList) {
System.out.println(" ");
System.out.println("name=" + section.getName());
System.out.println("length=" + section.getLength());
System.out.println("offset=" + section.getOffset());
}
} catch (Exception e) {
e.printStackTrace();
} finally {
if (raFile != null) {
try {
raFile.close();
} catch (IOException e) {
e.printStackTrace();
}
}
}
}
/**
* Supported section name. The order of the enum determines the order of
* loading.
*/
public enum SectionName {
NS_INFO("NS_INFO"), STRING_TABLE("STRING_TABLE"), EXTENDED_ACL(
"EXTENDED_ACL"), INODE("INODE"), INODE_REFERENCE(
"INODE_REFERENCE"), SNAPSHOT("SNAPSHOT"), INODE_DIR("INODE_DIR"), FILES_UNDERCONSTRUCTION(
"FILES_UNDERCONSTRUCTION"), SNAPSHOT_DIFF("SNAPSHOT_DIFF"), SECRET_MANAGER(
"SECRET_MANAGER"), CACHE_MANAGER("CACHE_MANAGER");
private static final SectionName[] values = SectionName.values();
public static SectionName fromString(String name) {
for (SectionName n : values) {
if (n.name.equals(name))
return n;
}
return null;
}
private final String name;
private SectionName(String name) {
this.name = name;
}
}
}

关于代码解释，我们会在专门的FSImage文件加载源码分析相关文章中进行详细介绍，本文只关注FSImage文件的总体格式。

执行上述方法，打印内容输出如下：

文件summary长度域大小：FILE_LENGTH_FIELD_SIZE=4
获取FSImage文件长度：fileLength=1154156
文件从头开始读取8个byte至byte[]数组fileHeadTmp
获取文件头长度：fileHeadLength=8
fileHeadString=HDFSIMG1
文件定位到文件summary长度开始处：1154152
获取文件summary部分长度：summaryLength=231
文件定位到文件summary部分开始处：1153921
从当前位置开始读入文件summary部分内容至summaryBytes数组
解析文件summary部分内容如下：
1、ondiskVersion=1
2、layoutVersion=-60
3、codec=
4、section
name=NS_INFO
length=27
offset=8
name=INODE
length=1093067
offset=35
name=INODE_DIR
length=60225
offset=1093102
name=FILES_UNDERCONSTRUCTION
length=345
offset=1153327
name=SNAPSHOT
length=68
offset=1153672
name=SNAPSHOT_DIFF
length=36
offset=1153740
name=INODE_REFERENCE
length=0
offset=1153776
name=SECRET_MANAGER
length=9
offset=1153776
name=CACHE_MANAGER
length=7
offset=1153785
name=STRING_TABLE
length=129
offset=1153792

不难看出，文件的总长度为1154156，这与我通过windows系统下右击-属性的方式查看结果是一致的，如下：

（一）文件的起始位置（下标我们从0开始），0-7处为文件头信息，占8个byte的"HDFSIMG1"；

（二）然后是接下来是10个section区域，这部分在FSImage文件中所占起止位置为8-1153920，这些是根据下面的summary区域的分析得到的结论，section分别如下：

1、8-34：占27个byte的section--NS_INFO，命名系统NameSystem信息section区域，具体内容后续文章再讲；

2、35-1093101：占1093067个byte的section--INODE，HDFS中INODE节点section区域，具体内容后续文章再讲；

3、1093102-1153326：占60225个byte的section--INODE_DIR，HDFS中INODE目录节点section区域，具体内容后续文章再讲；

4、1153327-1153671：占345个byte的section--FILES_UNDERCONSTRUCTION，HDFS中FILES_UNDERCONSTRUCTION处于构建状态文件部分section区域，具体内容后续文章再讲；

5、1153672-1153739：占68个byte的section--SNAPSHOT，HDFS中SNAPSHOT快照部分section区域，具体内容后续文章再讲；

6、1153740-1153775：占36个byte的section--SNAPSHOT_DIFF，HDFS中SNAPSHOT_DIFF部分section区域，具体内容后续文章再讲；

7、1153776-？：占0个byte的section--INODE_REFERENCE，HDFS中INODE_REFERENCE节点引用部分section区域，具体内容后续文章再讲，实际上本文件中没有这部分，为了体现FSImage文件的完整性，还是增加这部分的描述；

8、1153776-1153784：占9个byte的section--SECRET_MANAGER，HDFS中SECRET_MANAGER部分section区域，具体内容后续文章再讲；

9、1153785-1153791：占7个byte的section--CACHE_MANAGER，HDFS中CACHE_MANAGER部分section区域，具体内容后续文章再讲；

10、1153792-1153920：占129个byte的section--STRING_TABLE，HDFS中STRING_TABLE部分section区域，具体内容后续文章再讲；

（三）再接下来是文件summary区域，这部分在FSImage文件中所占起止位置为1153921-1154151，长度为231，它主要标识了上述各section区域的区域名name、在FSImage文件所占长度length及其起始位置offset，另外还有三个十分总要的变量，FSImage文件在磁盘上的版本号ondiskVersion、布局layout版本号layoutVersion及其解压/压缩器codec，前面两个会在load文件时与HDFS中NameNode进程内存中的版本号分别进行校验，防止错误版本的FSImage文件被加载，而codec则用于如何加载各个section区域，为空默认不做任何解压/压缩处理；

（四）最后为文件summary部分所占长度区域，这部分在FSImage文件中所占起止位置为1154152-1154155，正好是文件的最后一部分内容。

或许通过图的方式你会看的更直观，但是请原谅我拙劣的画图技巧：

实际上，FSImage文件中各个区域包含的内容，采用的是Google的protobuf编码格式，而protobuf不单单是一种消息传输格式，你也可以把它理解为一种数据编码格式，所以各个区域数据格式，在HDFS内的fsimage.proto文件中也有所阐述，比如FileSummary：

message FileSummary {
// The version of the above EBNF grammars.
required uint32 ondiskVersion = 1;
// layoutVersion describes which features are available in the
// FSImage.
required uint32 layoutVersion = 2;
optional string codec = 3;
// index for each section
message Section {
optional string name = 1;
optional uint64 length = 2;
optional uint64 offset = 3;
}
repeated Section sections = 4;
}

它就包含我们上面所描述的ondiskVersion、layoutVersion、codec、sections五部分，最后的sections是可以重复的，即repeated，而每个section又是一个message，包含name、length、offset三部分，正和我们上面解析的结果一致。

又如StringTableSection：

/**
* This section maps string to id
* NAME: STRING_TABLE
*/
message StringTableSection {
message Entry {
optional uint32 id = 1;
optional string str = 2;
}
optional uint32 numEntry = 1;
// repeated Entry
}

包含两部分，Entry数量：numEntry，和重复的Entry，每个Entry又是一个Message，包含id和str两部分。

以上就是FSImage文件的主体信息，至于文件中的详细内容，特别是每个不同section区域中都有哪些内容，尤其是复杂的INodeSection等，我们后续再讲！

HDFS源码分析之FSImage文件内容（一）总体格式的更多相关文章

HDFS源码分析数据块校验之DataBlockScanner
DataBlockScanner是运行在数据节点DataNode上的一个后台线程.它为所有的块池管理块扫描.针对每个块池,一个BlockPoolSliceScanner对象将会被创建,其运行在一个单独 ...
HDFS源码分析EditLog之读取操作符
在<HDFS源码分析EditLog之获取编辑日志输入流>一文中,我们详细了解了如何获取编辑日志输入流EditLogInputStream.在我们得到编辑日志输入流后,是不是就该从输入流中获 ...
HDFS源码分析之数据块及副本状态BlockUCState、ReplicaState
关于数据块.副本的介绍,请参考文章<HDFS源码分析之数据块Block.副本Replica>. 一.数据块状态BlockUCState 数据块状态用枚举类BlockUCState来表示,代 ...
HDFS源码分析EditLog之获取编辑日志输入流
在<HDFS源码分析之EditLogTailer>一文中,我们详细了解了编辑日志跟踪器EditLogTailer的实现,介绍了其内部编辑日志追踪线程EditLogTailerThread的 ...
HDFS源码分析心跳汇报之数据块汇报
在<HDFS源码分析心跳汇报之数据块增量汇报>一文中,我们详细介绍了数据块增量汇报的内容,了解到它是时间间隔更长的正常数据块汇报周期内一个smaller的数据块汇报,它负责将DataNod ...
Yii2.0源码分析之——控制器文件分析（Controller.php）创建动作、执行动作
在Yii中,当请求一个Url的时候,首先在application中获取request信息,然后由request通过urlManager解析出route,再在Module中根据route来创建contr ...
HDFS源码分析之UnderReplicatedBlocks（一）
http://blog.csdn.net/lipeng_bigdata/article/details/51160359 UnderReplicatedBlocks是HDFS中关于块复制的一个重要数据 ...
HDFS源码分析数据块复制监控线程ReplicationMonitor（二）
HDFS源码分析数据块复制监控线程ReplicationMonitor(二)
HDFS源码分析数据块复制监控线程ReplicationMonitor（一）
ReplicationMonitor是HDFS中关于数据块复制的监控线程,它的主要作用就是计算DataNode工作,并将复制请求超时的块重新加入到待调度队列.其定义及作为线程核心的run()方法如下: ...

随机推荐

Gmail进程信息转储分析工具pdgmail
Gmail进程信息转储分析工具pdgmail 进程信息转储(Process Memory Dump)是数字取证的重要方式.通过分析对应进程的信息转储,可以获取大量的信息.Kali Linux提供一 ...
Bluetooth篇开发实例之七匹配&UUID
匹配和通信是两回事. 1.用过Android系统设置(Setting)的人都知道蓝牙搜索之后可以建立配对和解除配对,但是这两项功能的函数没有在SDK中给出.但是可以通过反射来获取. 知道这两个API的 ...
Ubuntu 16.04服务器版查看IP、网关、DNS（非DHCP）
查看IP ifconfig em1 Link encap:Ethernet HWaddr F0:1F:AF:D6:17:DD inet addr:115.238.54.116 Bcast:115.23 ...
UVa 407
此问题与求上升序列最大和类似,可以作为DAG模型计算.将每一快砖分解为3块,将所有砖块按照底排序,注意sort排序中涉及到底的两个参数x,y,这时候一定要有优先排,比如先排x再排y,不能同时排x和y, ...
路由器漏洞复现分析第三弹：DVRF INTRO题目分析
这个项目的目的是来帮助人们学习X86_64之外其他架构环境,同时还帮助人们探索路由器固件里面的奥秘. 本文通过练习DVRF 中INTRO 部分的题目来学习下MIPS 结构下的各种内存攻击. DVRF: ...
django使用类做业务逻辑
在django中一般定义一个带有request参数的函数用来处理url,但是更推荐用类做从django.views.generic.base 导入的views有get,post等各种函数,用来处理对 ...
jqGrid怎么设置初始化页面时不加载数据（不向服务器请求数据）
最近做一些表格一直用到jqGrid,今天遇到一个问题: 1.就是页面加载的时候数据不显示,点击搜索才根据请求从服务器返回并显示内容. 2.默认不从服务器请求数据(不然在开发者工具下会显示请求不到数据的 ...
WEB接口测试之Jmeter接口测试自动化（四）（持续构建）
转载http://www.cnblogs.com/chengtch/p/6145867.html Jmeter是压力测试.接口测试工具,Ant是基于Java的构建工具,具有跨平台的作用,jenkin ...
CSS——如何清除浮动
众所周知,平时在写HTML代码时,难免少不了使用Float样式,这样一来,假使您没有清除浮动,那么有浮动元素的父元素容器将元素将无法自动撑开.换句简单好理解的话来说,假如你在写CODE时,其中div. ...
机房收费系统合作版（二）——初识Git
研究了一天半的Git.查阅了不少资料,这里将Git的运用分为两条线做个简单梳理:本地控制库.远程控制库. **************************************本地控制库**** ...

HDFS源码分析之FSImage文件内容（一）总体格式

HDFS源码分析之FSImage文件内容（一）总体格式的更多相关文章

随机推荐

热门专题