HDFS Append时packet的格式以及DataNode对block/checksum文件的处理

HDFS的Block一般比较大,默认64MB/128MB,客户端给DataNode发数据实际上是以Packet的形式发送的,Packet一般只有64KB左右。Packet内部由分为一个个chunk,每个chunk一般情况(后面会说非一般情况)下512Bytes,并且Packet内部对于每个chunk会带上这个chunk的checksum,对于CRC来说,checksum本身占用4Bytes。一个Packet的结构如下:

其中header中包含了一些元信息,比如这个packet是不是所属block的最后一个packet,数据长度多少,编码多少,packet的数据部分的第一个字节在block中的offset,DataNode接到这个Packet是否必须sync磁盘。

下面主要关注当客户端使用如下模式写数据时,数据是怎样被封装成一个个packet的:

FSDataOutputStream out = fs.append(new Path(file));
out.write(b, off, len);
out.hflush()

首先,假设需要进行append的file一开始不存在,没有任何数据。

实际上,out是HdfsDataOutputStream类型,out.write(b,off,len)最终调用了HdfsDataOutputStream包含的DFSOutputStream类型对象,转而调用的是DFSOutputStream的父类FSOutputSummer的write(b,off,len),FSOutputSummer从名字可以看出,对数据进行了checksum.

FSOutputSummer的write(b,off,len)实质上就一行:

for (int n=0;n<len;n+=write1(b, off+n, len-n)) {}

实际上就是循环的调用write1方法将数据写入,write1方法会去检查是否写入的数据满了一个chunk(正常情况下512Bytes),如果满了,则为这个chunk计算一个checksum,4个字节,然后将这个chunk和对应的checksum写入当前Packet中(DFSOutputStream的writeChunk方法),格式就是上面那个图中的格式。当Packet满了,也就是说塞入的chunk的个数到达了预先计算的值,就将这个packet放入dataQueue,后台会有一个DataStreamer线程专门从这个dataQueue中取一个个的packet发送出去。

到这里,都比较清晰,需要注意的是,如果append的file中本身已经存在了一些数据,比如512+512+100Bytes,那么在调用out.write(b,off,len)向file中追加新的数据时,构造的第一个packet中只有一个chunk,并且这个chunk的大小是512-100=412Bytes,这个packet之后的packet的chunk是标准512Bytes。

if (appendChunk && bytesCurBlock%bytesPerChecksum == 0) {
appendChunk = false;
// 下次计算checksum时的chunk大小是512Bytes,不再是412Bytes
resetChecksumChunk(bytesPerChecksum);
}

以上代码来自DFSOutputStream的writeChunk方法,其中appendChunk在fs.append时会被置为true,并且bytesCurBlock会初始化为append之前文件的大小,当构造完特殊包后,bytesCurBlock增加了412Bytes,将上次的paritial chunk补齐了。

DataStreamer从dataQueue中取packet发送出去的过程不关注,下面看DataNode针对append如何处理block文件和block的checksum文件。

DataNode上接受Block的逻辑封装在BlockReceiver中,其中,receiveBlock方法中有一段代码

while (receivePacket() >= 0) { /* Receive until the last packet */ }

每调一次receivePacket,DataNode就接收一个packet,将packet的data和checksum都拿出来,进行一次校验,看数据在发送过程中是否损坏,然后看block在当前DataNode上的副本在磁盘上的长度是否是chunk的整数倍,如果不是,则将block checksum文件(blk_1100893627_27540491.meta)的输出流seek到最后一个checksum,并且将最后一个checksum读出来,如下代码:

 if (onDiskLen % bytesPerChecksum != 0) {
// prepare to overwrite last checksum
adjustCrcFilePosition();
} // If this is a partial chunk, then read in pre-existing checksum
if (firstByteInBlock % bytesPerChecksum != 0) {
LOG.info("Packet starts at " + firstByteInBlock +
" for " + block +
" which is not a multiple of bytesPerChecksum " +
bytesPerChecksum);
long offsetInChecksum = BlockMetadataHeader.getHeaderSize() +
onDiskLen / bytesPerChecksum * checksumSize;
computePartialChunkCrc(onDiskLen, offsetInChecksum, bytesPerChecksum);
}

然后将数据写入block文件(blk_1100893627),将checksum写入block checksum文件(blk_1100893627_27540491.meta)

block file和block checksum file格式如下:



参考资料

Hadoop 2.5.0

HDFS Append时packet的格式以及DataNode对block/checksum文件的处理的更多相关文章

  1. iOS block 声明时和定义时的不同格式

    今天写程序时,在实现一个block时总提示格式错误,对比api的block参数格式,没发现错误.后来查阅了资料,发现这两个格式是不同的! 具体格式见下方 NSString * (^testBlock) ...

  2. spyder在编辑过程中被自己弄乱了,想要恢复成安装时默认的格式或者重置页面格式的解决办法

    打开spyder,tools-->Reset Spyder to factory defaults,按照如上操作即可恢复成安装时的默认格式.

  3. WPF绑定文本时使用指定格式文本

    原文:WPF绑定文本时使用指定格式文本 Text="{Binding PlayletModel.characters,StringFormat=Cast : {0}}" Strin ...

  4. 在js内生成PDF文件并下载的功能实现(不调用后端),以及生成pdf时换行的格式不被渲染,word-break:break-all

    在js内生成PDF文件并下载的功能实现(不调用后端),以及生成pdf时换行的格式不被渲染,word-break:break-all 前天来了个新需求, 有一个授权书的文件要点击下载, 需要在前端生成, ...

  5. HDFS源码分析心跳汇报之DataNode注册

    HDFS源码分析心跳汇报之DataNode注册,近期推出!

  6. ASM时的OFM特性对影的建数据文件名称的影响及为SYSTEM表空间的数据文件使用别名

    客户遇到个DG的问题,存储使用的ASM管理,有多个磁盘盘. 在主库创建数据文件,备库自己主动创建的数据文件都在同一磁盘组,而且在主库创建数据文件是指定的是类似**.DBF的名字,到备库也变成了使用AS ...

  7. 安装Ruby、Sass在WebStrom添加Watcher实现编辑scss文件时自动生成.map和压缩后的.css文件

    前言 这段时间一直在看Bootstrap,V3官方直接提供了Less版本的源码,就先将Less学完了,很简单的语法,学习写Demo都是在Webstorm里写的,配置了Watcher自动编译(详见< ...

  8. oracle expdp导入时 提示“ORA-39002: 操作无效 ORA-39070: 无法打开日志文件 ”

    1.导出数据库的时候报错 expdp zz/zz@orcl directory=exp_dp dumpfile=zz_20170520.dump logfile=zz_20170520.log   2 ...

  9. SqlServer 2014还原数据库时提示:无法在已有的""上还原文件,请重新发出RESTORE语句,用WITH REPLACE来覆盖原先存在的文件

    场景 SQL Server 2014在还原数据库时提示: 无法在已有的""上还原文件,请重新发出RESTORE语句,用WITH REPLACE来覆盖原先存在的文件... 实现 在还 ...

随机推荐

  1. MyEclipse设置编码方式

    1.windows->Preferences……打开"首选项"对话框,左侧导航树,导航到general->Workspace, 右侧Text file encoding ...

  2. 移植UE4的模型操作到Unity中

    最近在Unity上要写一个东东,功能差不多就是在Unity编辑器上的旋转,移动这些,在手机上也能比较容易操作最好,原来用Axiom3D写过一个类似的,有许多位置并不好用,刚好在研究UE4的源码,在模型 ...

  3. android 抓包 使用 tcpdmp + Wireshark

         下载地址tcpdump: http://www.androidtcpdump.com/      使用su用户, 给/system/可写的权限 mount -o remount,rw -t ...

  4. Linux 导入epel源

    rpm -ivh  http://dl.fedoraproject.org/pub/epel/6/x86_64/epel-release-6-8.noarch.rpm rpm -ivh http:// ...

  5. duilib 的IE浏览器控件去边框和去滚动条的代码

    近些天在duilib群里经常有朋友问起,怎么让duilib的IE控件可以去边框,去滚动条的问题,或者是如何去控件IE控件的行为.为了避免重复的回答,我就写一篇博文,把处理方法说明一下. duilib中 ...

  6. JCEF3——谷歌浏览器内核Java版实现(一):使用jawt获取窗体句柄

    前言 最近一段时间研究谷歌浏览器内核.谷歌浏览器内核一直开源,并维护更新,它的开源项目中内核更新速度和Chrome浏览器版本更新进度一样!而且它不同于WebKit(值得一题的是谷歌浏览器已不使用Web ...

  7. 针对 SQL Server 2008 在Windows Server 2008上的访问配置 Windows 防火墙

    现在Windows Server 2008 服务器用的越来越多,2008的防火墙比2003的有了很大的增强,安全性有了更大的提高. 甚至80端口的出站默认都是被关闭的.所以如果在2008Server上 ...

  8. [转]zetex.lib

    *BAL74 ZETEX Spice Model Last revision 24/8/92*NOTES: FOR RF OPERATION ADD PACKAGE INDUCTANCE 0F 2.5 ...

  9. 牢骚与javascript中的this

    最近在看关于拖延症的一本书<拖拉一点也无妨>,后面得出结论是自己写博客大部分处于两种状态,心情很好和心情很不好的时候.因为正常状态下感觉写博客吧,是件很麻烦的事情,不如去看看电影看看漫画啥 ...

  10. unity web player的debug和log信息

    win8模式下 unity web player的报错信息在如下目录下:C:\Users\xxx\AppData\Local\Temp\UnityWebPlayer\log 注:目录里的文件可能被隐藏 ...