HDFS源码分析数据块汇报之损坏数据块检测checkReplicaCorrupt()

无论是第一次，还是之后的每次数据块汇报，名字名字节点都会对汇报上来的数据块进行检测，看看其是否为损坏的数据块。那么，损坏数据块是如何被检测的呢？本文，我们将研究下损坏数据块检测的checkReplicaCorrupt()方法。

关于数据块及其副本的状态，请阅读《HDFS源码分析之数据块及副本状态BlockUCState、ReplicaState》一文。

checkReplicaCorrupt()方法专门用于损坏数据块检测，代码如下：

/**
* The next two methods test the various cases under which we must conclude
* the replica is corrupt, or under construction. These are laid out
* as switch statements, on the theory that it is easier to understand
* the combinatorics of reportedState and ucState that way. It should be
* at least as efficient as boolean expressions.
*
* @return a BlockToMarkCorrupt object, or null if the replica is not corrupt
*/
private BlockToMarkCorrupt checkReplicaCorrupt(
Block reported, ReplicaState reportedState,
BlockInfo storedBlock, BlockUCState ucState,
DatanodeDescriptor dn) {
// 检测数据节点DataNode上的数据块副本状态ReplicaState实例reportedState
switch(reportedState) {
case FINALIZED:// 数据块副本如果为FINALIZED状态，即没有被修改的状态
// 需要再看名字节点数据块状态BlockUCState，即ucState
switch(ucState) {
case COMPLETE:// 如果是COMPLETE状态，不应被汇报为坏块：这种情况下，数据节点副本已经处于不会被修改的FINALIZED状态，
// 而名字节点中的数据块状态为COMPLETE，也是不会被修改的状态，
// 并且其他数据节点已经汇报过该数据块对应的一个副本，所以不会是损坏的数据块
case COMMITTED:// 如果是COMMITTED状态，虽然数据块不会被修改，但是还没有任何数据节点汇报过副本，还需要做以下时间戳和大小的判断：
if (storedBlock.getGenerationStamp() != reported.getGenerationStamp()) {
// 如果存储的数据块时间戳不等于汇报的数据块时间戳，需要汇报为坏块，
// 且损坏原因为Reason.GENSTAMP_MISMATCH，即时间戳不匹配
final long reportedGS = reported.getGenerationStamp();
return new BlockToMarkCorrupt(storedBlock, reportedGS,
"block is " + ucState + " and reported genstamp " + reportedGS
+ " does not match genstamp in block map "
+ storedBlock.getGenerationStamp(), Reason.GENSTAMP_MISMATCH);
} else if (storedBlock.getNumBytes() != reported.getNumBytes()) {
// 如果存储的数据块大小不等于汇报的数据块大小，需要汇报为坏块
// 且损坏原因为Reason.SIZE_MISMATCH，即大小不匹配
return new BlockToMarkCorrupt(storedBlock,
"block is " + ucState + " and reported length " +
reported.getNumBytes() + " does not match " +
"length in block map " + storedBlock.getNumBytes(),
Reason.SIZE_MISMATCH);
} else {
// 其它情况下不是一个坏块
return null; // not corrupt
}
case UNDER_CONSTRUCTION:// 如果是UNDER_CONSTRUCTION状态，数据还在被写入，所以需要做以下时间戳的判断：
if (storedBlock.getGenerationStamp() > reported.getGenerationStamp()) {
// 如果存储的数据块时间戳不等于汇报的数据块时间戳，需要汇报为坏块，
// 且损坏原因为Reason.GENSTAMP_MISMATCH，即时间戳不匹配
final long reportedGS = reported.getGenerationStamp();
return new BlockToMarkCorrupt(storedBlock, reportedGS, "block is "
+ ucState + " and reported state " + reportedState
+ ", But reported genstamp " + reportedGS
+ " does not match genstamp in block map "
+ storedBlock.getGenerationStamp(), Reason.GENSTAMP_MISMATCH);
}
return null;
default:
// 其他情况下均不是损坏的数据块
return null;
}
case RBW:// 数据块副本为正在被写入状态，不应被汇报为坏块
case RWR:// 数据块副本为正等待被恢复状态
if (!storedBlock.isComplete()) {
// 如果存储的数据块不是Complete状态，则不是一个坏块
return null; // not corrupt
} else if (storedBlock.getGenerationStamp() != reported.getGenerationStamp()) {
// 否则需要判断时间戳是否一致
final long reportedGS = reported.getGenerationStamp();
return new BlockToMarkCorrupt(storedBlock, reportedGS,
"reported " + reportedState + " replica with genstamp " + reportedGS
+ " does not match COMPLETE block's genstamp in block map "
+ storedBlock.getGenerationStamp(), Reason.GENSTAMP_MISMATCH);
} else { // COMPLETE block, same genstamp
if (reportedState == ReplicaState.RBW) {
// 如果数据块副本为正在写入状态RBW，不会是一个损坏的数据块
// If it's a RBW report for a COMPLETE block, it may just be that
// the block report got a little bit delayed after the pipeline
// closed. So, ignore this report, assuming we will get a
// FINALIZED replica later. See HDFS-2791
LOG.info("Received an RBW replica for " + storedBlock +
" on " + dn + ": ignoring it, since it is " +
"complete with the same genstamp");
return null;
} else {
// 否则为一个损坏的数据块，且损坏原因为Reason.INVALID_STATE
return new BlockToMarkCorrupt(storedBlock,
"reported replica has invalid state " + reportedState,
Reason.INVALID_STATE);
}
}
case RUR: // should not be reported 副本处于恢复状态下，不应被汇报为坏块
case TEMPORARY: // should not be reported 副本为仅为复制而创建的临时副本，不应被汇报为坏块
default:
String msg = "Unexpected replica state " + reportedState
+ " for block: " + storedBlock +
" on " + dn + " size " + storedBlock.getNumBytes();
// log here at WARN level since this is really a broken HDFS invariant
LOG.warn(msg);
return new BlockToMarkCorrupt(storedBlock, msg, Reason.INVALID_STATE);
}
}

checkReplicaCorrupt()方法处理逻辑略显复杂，但是还算清晰，它需要被汇报的数据块Block实例reported、副本状态实例ReplicaState、数据块状态BlockUCState等参数，主要处理逻辑如下：

基于数据节点DataNode上的数据块副本状态ReplicaState实例reportedState进行检测，如果：

1、数据块副本状态ReplicaState为正在写入RBW、正在恢复RUR、为复制而创建的临时副本TEMPORARY三种状态，则肯定不是损坏的数据块，因为这些数据块副本还处于不确定的状态，还需要被写入或者被舍弃等；

2、数据块副本状态ReplicaState为FINALIZED的话，说明数据已被完全写入，数据块副本大小及时间戳均不会再发生变化，此时，就等着其所在数据节点DataNode进行数据块汇报，将该数据块副本汇报给名字节点NameNode，那么我们需要看数据块Block在名字节点内的状态：

2.1、如果是COMPLETE状态，不应被汇报为坏块：这种情况下，数据节点副本已经处于不会被修改的FINALIZED状态，而名字节点中的数据块状态为COMPLETE，也是不会被修改的状态，并且其他数据节点已经汇报过该数据块对应的一个副本，所以不会是损坏的数据块；

2.2、如果是COMMITTED状态，虽然数据块不会被修改，但是还没有任何数据节点汇报过副本，还需要做以下时间戳和大小的判断：

2.2.1、如果名字节点存储的数据块时间戳不等于汇报的数据块时间戳，需要汇报为坏块，且损坏原因为Reason.GENSTAMP_MISMATCH，即时间戳不匹配；

2.2.2、如果名字节点存储的数据块大小不等于汇报的数据块大小，需要汇报为坏块，且损坏原因为Reason.SIZE_MISMATCH，即大小不匹配；

2.2.3、其它情况下不是一个坏块；

2.3、如果是UNDER_CONSTRUCTION状态，数据还在被写入，所以可以忽略大小，只做以下时间戳的判断：

2.3.1、如果名字节点存储的数据块时间戳不等于汇报的数据块时间戳，需要汇报为坏块，且损坏原因为Reason.GENSTAMP_MISMATCH，即时间戳不匹配；

2.3.2、其它情况下不是一个坏块；

2.4、其他情况下均不是损坏的数据块；

3、数据块副本为正等待被恢复状态RWR的话，需要看数据块在名字节点NameNode的状态：

3.1、如果名字节点存储的数据块Block不是COMPLETE状态，则不是一个坏块，此时数据块尚未上报过名字节点NameNode；

3.2、如果名字节点存储的数据块是COMPLETE状态，说明之前已经上报过，需要判断时间戳是否一致，如果时间戳不一致的话，则说明其是一个坏块；

3.3、如果名字节点存储的数据块是COMPLETE状态，说明之前已经上报过，且时间戳一致的话，如果数据块副本为正在写入状态RBW，不会是一个损坏的数据块，否则为一个损坏的数据块，且损坏原因为Reason.INVALID_STATE；

4、其他情况下均为一个坏块，且损坏原因为Reason.INVALID_STATE。

BlockToMarkCorrupt是一个数据块标记为坏块的抽象数据结构，它包含四个成员变量，如下：

/** The corrupted block in a datanode. */
数据节点上的坏块数据块信息
final BlockInfo corrupted;
/** The corresponding block stored in the BlockManager. */
// 名字节点BlockManager中存储的相应的数据块信息
final BlockInfo stored;
// 损坏原因：字符串类型
/** The reason to mark corrupt. */
final String reason;
// 损坏原因code：枚举类型
/** The reason code to be stored */
final Reason reasonCode;

其他的均是构造方法，及覆写的toString()方法，不再赘述！

HDFS源码分析数据块汇报之损坏数据块检测checkReplicaCorrupt()的更多相关文章

HDFS源码分析心跳汇报之数据块汇报
在<HDFS源码分析心跳汇报之数据块增量汇报>一文中,我们详细介绍了数据块增量汇报的内容,了解到它是时间间隔更长的正常数据块汇报周期内一个smaller的数据块汇报,它负责将DataNod ...
HDFS源码分析心跳汇报之数据块增量汇报
在<HDFS源码分析心跳汇报之BPServiceActor工作线程运行流程>一文中,我们详细了解了数据节点DataNode周期性发送心跳给名字节点NameNode的BPServiceAct ...
HDFS源码分析数据块校验之DataBlockScanner
DataBlockScanner是运行在数据节点DataNode上的一个后台线程.它为所有的块池管理块扫描.针对每个块池,一个BlockPoolSliceScanner对象将会被创建,其运行在一个单独 ...
HDFS源码分析之数据块及副本状态BlockUCState、ReplicaState
关于数据块.副本的介绍,请参考文章<HDFS源码分析之数据块Block.副本Replica>. 一.数据块状态BlockUCState 数据块状态用枚举类BlockUCState来表示,代 ...
HDFS源码分析数据块复制监控线程ReplicationMonitor（二）
HDFS源码分析数据块复制监控线程ReplicationMonitor(二)
HDFS源码分析数据块复制监控线程ReplicationMonitor（一）
ReplicationMonitor是HDFS中关于数据块复制的监控线程,它的主要作用就是计算DataNode工作,并将复制请求超时的块重新加入到待调度队列.其定义及作为线程核心的run()方法如下: ...
HDFS源码分析心跳汇报之数据结构初始化
在<HDFS源码分析心跳汇报之整体结构>一文中,我们详细了解了HDFS中关于心跳的整体结构,知道了BlockPoolManager.BPOfferService和BPServiceActo ...
HDFS源码分析心跳汇报之周期性心跳
HDFS源码分析心跳汇报之周期性心跳,近期推出!
HDFS源码分析心跳汇报之DataNode注册
HDFS源码分析心跳汇报之DataNode注册,近期推出!

随机推荐

vue element-ui Tabs 标签页实现【更多】功能
element-ui Tabs本身是没有更多功能的,如果在外边添加一个更多按钮,又非常不好看, 而利用API中Tabs Attributes的before-leave勾子方法可以实现这个功能, 简单P ...
Codeforces 761C Dasha and Password(枚举+贪心)
题目链接 Dasha and Password 题目保证一定有解. 考虑到最多只有两行的指针需要移动,那么直接预处理出该行移动到字母数字或特殊符号的最小花费. 然后O(N^3)枚举求最小值即可. 时间 ...
从壹开始 [ Ids4实战 ] 之四 ║ 用户数据管理 & 前后端授权联调
前言哈喽~~~ 大家周一好!夏天到了,大家舒服了没有,熟话说,打败你的不是天真,是天真热!
记一次kubernetes集群异常: kubelet连接apiserver超时
Background kubernetes是master-slave结构,master node是集群的大脑, 当master node发生故障时整个集群都"out of control&q ...
Learn How To Attach PL/SQL Library In Oracle Forms
To attach a PL/SQL library in the Oracle Forms follow the following steps:1. Click on Attached Libra ...
ci框架文件上传
控制器类代码 <?php if ( ! defined('BASEPATH')) exit('No direct script access allowed'); class Upload ex ...
OFV.msi是什么为什么更新时无法安装
在网络上搜索了下这个是Microsoft Office 文件验证加载项,微软提供了一个单独的文件:http://www.microsoft.com/downloads/zh-cn/confirmat ...
python核心编程学习(第三版)之字符串匹配
表示择一匹配的管道符号|,表示一个“从多个模式中选中其一”,有时候也称作并或者逻辑或点号或者句号.符号匹配出了换行符\n以外的任何字符.如果要匹配句号,只需要使用反斜线转移句号符号的功能. ^匹配字 ...
windows中静态库lib和动态dll的区别及使用方法
1. 静态库lib和动态dll的区别 1.1 项目类型 VS在建Win32项目时,有以下选项: windows应用程序控制台应用程序DLL静态库最后两个类型:DLL和静态库,这两种项目类型是不可以单独 ...
Android4.4电池管理
一.概述 Android4.4的电池管理功能用于管理电池的充.放电功能. 整个电池管理的部分包含Linux电池驱动.Android电池服务.电池属性和參数.电池曲线优化四个部分. Linux电池驱动用 ...

HDFS源码分析数据块汇报之损坏数据块检测checkReplicaCorrupt()

HDFS源码分析数据块汇报之损坏数据块检测checkReplicaCorrupt()的更多相关文章

随机推荐

热门专题