HDFS源码分析数据块复制选取复制源节点

数据块的复制当然需要一个源数据节点，从其上拷贝数据块至目标数据节点。那么数据块复制是如何选取复制源节点的呢？本文我们将针对这一问题进行研究。

在BlockManager中，chooseSourceDatanode()方法就是用来选取数据块复制时的源节点的，它负责解析数据块所属数据节点列表，并选择一个，用它作为数据块的复制源。其核心逻辑如下：

我们优先选择正处于退役过程中的数据节点而不是其他节点，因为前者没有写数据传输量因此相对不是很繁忙。我们不使用已退役节点作为数据源。否则我们从它们之中随机选择一个数据节点，其复制工作量还没有达到阈值，然而，如果一个复制是最高优先级的复制的话，我们会随机选择一个数据节点，而不管复制阈值的限制。

chooseSourceDatanode()方法代码如下：

@VisibleForTesting
DatanodeDescriptor chooseSourceDatanode(Block block,
List<DatanodeDescriptor> containingNodes,
List<DatanodeStorageInfo> nodesContainingLiveReplicas,
NumberReplicas numReplicas,
int priority) {
// 清空containingNodes列表
// 包含指定block的节点列表
containingNodes.clear();
// 清空nodesContainingLiveReplicas列表
// 包含指定block活跃副本的节点列表
nodesContainingLiveReplicas.clear();
DatanodeDescriptor srcNode = null;
int live = 0;
int decommissioned = 0;
int corrupt = 0;
int excess = 0;
// 根据Block实例block从corruptReplicas中获取坏块副本所在数据节点集合nodesCorrupt
Collection<DatanodeDescriptor> nodesCorrupt = corruptReplicas.getNodes(block);
// 根据Block实例block从blocksMap中获取其对应的数据节点存储DatanodeStorageInfo实例storage
for(DatanodeStorageInfo storage : blocksMap.getStorages(block)) {
// 从数据节点存储DatanodeStorageInfo实例storage中获取数据节点描述信息node
final DatanodeDescriptor node = storage.getDatanodeDescriptor();
// 从excessReplicateMap集合中获取数据块集合excessBlocks，
// 这些块对数据节点来说是多余的。我们最终会将这些多余的块删除。
LightWeightLinkedSet<Block> excessBlocks =
excessReplicateMap.get(node.getDatanodeUuid());
// 根据数据节点的存储状态确定其是否为可用副本
int countableReplica = storage.getState() == State.NORMAL ? 1 : 0;
// 如果坏块节点集合nodesCorrupt中包含该节点，坏块数corrupt累加
if ((nodesCorrupt != null) && (nodesCorrupt.contains(node)))
corrupt += countableReplica;
// 如果节点正在退役或者已经退役，退役数decommissioned累加
else if (node.isDecommissionInProgress() || node.isDecommissioned())
decommissioned += countableReplica;
// 如果多余数据块集合中包含该数据块，则多余数excess累加
else if (excessBlocks != null && excessBlocks.contains(block)) {
excess += countableReplica;
// 其他情况下
} else {
// 将该存储添加到nodesContainingLiveReplicas集合
nodesContainingLiveReplicas.add(storage);
// 累加活跃副本数live
live += countableReplica;
}
// 将该节点添加到containingNodes集合
containingNodes.add(node);
// Check if this replica is corrupt
// If so, do not select the node as src node
// 如果为坏块，跳过
if ((nodesCorrupt != null) && nodesCorrupt.contains(node))
continue;
// 如果复制级别不是最高级别，且数据节点正在复制的数据块数目大于等于最大复制块数maxReplicationStreams，跳过
if(priority != UnderReplicatedBlocks.QUEUE_HIGHEST_PRIORITY
&& node.getNumberOfBlocksToBeReplicated() >= maxReplicationStreams)
{
continue; // already reached replication limit
}
// 如果数据节点getNumberOfBlocksToBeReplicated大于等于复制块数上线replicationStreamsHardLimit，跳过
if (node.getNumberOfBlocksToBeReplicated() >= replicationStreamsHardLimit)
{
continue;
}
// the block must not be scheduled for removal on srcNode
// 如果数据块为多余的数据块，直接跳过
if(excessBlocks != null && excessBlocks.contains(block))
continue;
// never use already decommissioned nodes
// 如果数据节点为已退役节点，跳过
if(node.isDecommissioned())
continue;
// we prefer nodes that are in DECOMMISSION_INPROGRESS state
// 如果数据节点正在退役，且srcNode还未选中，那么选择该数据节点为srcNode，并跳过
if(node.isDecommissionInProgress() || srcNode == null) {
srcNode = node;
continue;
}
// 如果源数据节点srcNode正在退役，则跳过
if(srcNode.isDecommissionInProgress())
continue;
// switch to a different node randomly
// this to prevent from deterministically selecting the same node even
// if the node failed to replicate the block on previous iterations
if(DFSUtil.getRandom().nextBoolean())
srcNode = node;
}
// 初始化数据块副本复制统计对象numReplicas
if(numReplicas != null)
numReplicas.initialize(live, decommissioned, corrupt, excess, 0);
// 返回srcNode
return srcNode;
}

chooseSourceDatanode()方法的整体逻辑如下：

1、清空containingNodes列表：containingNodes为包含指定block的节点描述信息DatanodeDescriptor列表；

2、清空nodesContainingLiveReplicas列表：nodesContainingLiveReplicas为包含指定block活跃副本的节点存储DatanodeStorageInfo列表；

3、根据Block实例block从corruptReplicas中获取坏块副本所在数据节点集合nodesCorrupt；

4、根据Block实例block从blocksMap中获取其对应的数据节点存储DatanodeStorageInfo集合，并遍历每一个数据节点存储DatanodeStorageInfo实例storage：

4.1、从数据节点存储DatanodeStorageInfo实例storage中获取数据节点描述信息node；

4.2、从excessReplicateMap集合中获取数据块集合excessBlocks：这些块对数据节点来说是多余的，我们最终会将这些多余的块删除；

4.3、根据数据节点的存储状态确定其是否为可用副本countableReplica；

以下为统计数据块副本情况：

4.4、如果坏块节点集合nodesCorrupt中包含该节点，坏块数corrupt累加；

4.5、如果节点正在退役或者已经退役，退役数decommissioned累加；

4.6、如果多余数据块集合中包含该数据块，则多余数excess累加；

4.7、其他情况下：

4.7.1、将该存储添加到nodesContainingLiveReplicas集合；

4.7.2、累加活跃副本数live；

4.8、将该节点添加到containingNodes集合；

4.9、如果为坏块，跳过；

4.10、如果复制级别不是最高级别，且节点正在复制的数据块数目大于等于最大复制块数maxReplicationStreams，跳过；

4.11、如果数据节点getNumberOfBlocksToBeReplicated大于等于复制块数上线replicationStreamsHardLimit，跳过；

4.12、如果数据块为多余的数据块，直接跳过；

4.13、如果数据节点为已退役节点，跳过；

4.14、如果数据节点正在退役，且srcNode还未选中，那么选择该数据节点为srcNode，并跳过；

4.15、如果源数据节点srcNode正在退役，则跳过；

4.16、随机选择源数据节点；

5、初始化数据块副本复制统计对象numReplicas；

6、返回块复制源数据节点srcNode。

其中，有两个阈值需要单独说下，如下：

1、maxReplicationStreams：一个给定节点除最高优先级复制外复制流的最大数目，取参数dfs.namenode.replication.max-streams，参数未配置默认为2；

2、replicationStreamsHardLimit：一个给定节点全部优先级复制复制流的最大数目，取参数dfs.namenode.replication.max-streams-hard-limit，参数未配置默认为4。

从上述整理流程中，大致总结如下：

根据block从blocksMap中取数据块所在数据节点存储实例集合并遍历，统计数据块副本情况，包括损坏副本、多余副本、退役副本、活跃副本等，然后损坏副本、多余副本、退役节点直接跳过，这三种情况不能被选中为复制源数据节点，并且还有两种情况，一是如果复制级别不是最高级别，且数据节点正在复制的数据块数目大于等于最大复制块数maxReplicationStreams，二是如果数据节点正在复制的数据块数目大于等于复制块数上线replicationStreamsHardLimit，这两种情况也直接跳过，不能被选中为复制源数据节点，剩下的，则是随机选择源数据节点，并且其最喜欢选择正在退役的数据节点，这个最喜欢的意思是，选择的方式是随机选择，但是一旦正在退役节点被选中，则源节点不会再做变更，否则还是要通过随机选择来变更的。

HDFS源码分析数据块复制选取复制源节点的更多相关文章

HDFS源码分析数据块复制监控线程ReplicationMonitor（二）
HDFS源码分析数据块复制监控线程ReplicationMonitor(二)
HDFS源码分析数据块校验之DataBlockScanner
DataBlockScanner是运行在数据节点DataNode上的一个后台线程.它为所有的块池管理块扫描.针对每个块池,一个BlockPoolSliceScanner对象将会被创建,其运行在一个单独 ...
HDFS源码分析数据块复制监控线程ReplicationMonitor（一）
ReplicationMonitor是HDFS中关于数据块复制的监控线程,它的主要作用就是计算DataNode工作,并将复制请求超时的块重新加入到待调度队列.其定义及作为线程核心的run()方法如下: ...
HDFS源码分析数据块复制之PendingReplicationBlocks
PendingReplicationBlocks实现了所有正在复制的数据块的记账工作.它实现以下三个主要功能: 1.记录此时正在复制的块: 2.一种对复制请求进行跟踪的粗粒度计时器: 3.一个定期识别 ...
HDFS源码分析数据块汇报之损坏数据块检测checkReplicaCorrupt()
无论是第一次,还是之后的每次数据块汇报,名字名字节点都会对汇报上来的数据块进行检测,看看其是否为损坏的数据块.那么,损坏数据块是如何被检测的呢?本文,我们将研究下损坏数据块检测的checkReplic ...
HDFS源码分析数据块之CorruptReplicasMap
CorruptReplicasMap用于存储文件系统中所有损坏数据块的信息.仅当它的所有副本损坏时一个数据块才被认定为损坏.当汇报数据块的副本时,我们隐藏所有损坏副本.一旦一个数据块被发现完好副本达到 ...
jQuery1.9.1源码分析--数据缓存Data模块
jQuery1.9.1源码分析--数据缓存Data模块阅读目录 jQuery API中Data的基本使用方法介绍 jQuery.acceptData(elem)源码分析 jQuery.data(el ...
TeamTalk源码分析（十一） —— pc客户端源码分析
--写在前面的话在要不要写这篇文章的纠结中挣扎了好久,就我个人而已,我接触windows编程,已经六七个年头了,尤其是在我读研的三年内,基本心思都是花在学习和研究windows程序上 ...
Netty源码分析（七）----- read过程源码分析
在上一篇文章中,我们分析了processSelectedKey这个方法中的accept过程,本文将分析一下work线程中的read过程. private static void processSele ...

随机推荐

洛谷—— P1022 计算器的改良
P1022 计算器的改良题目背景 NCL是一家专门从事计算器改良与升级的实验室,最近该实验室收到了某公司所委托的一个任务:需要在该公司某型号的计算器上加上解一元一次方程的功能.实验室将这个任务交给了 ...
CodeForces - 985F Isomorphic Strings
假如两个区间的26的字母出现的位置集合分别是 A1,B1,A2,B2,....., 我们再能找到一个排列p[] 使得 A[i] = B[p[i]] ,那么就可以成功映射了. 显然集合可以直接hash, ...
2.1多线程(java学习笔记) java中多线程的实现（附静态代理模式）
一.多线程首先我们要清楚程序.进程.线程的关系. 首先进程从属于程序,线程从属于进程. 程序指计算机执行操作或任务的指令集合,是一个静态的概念. 但我们实际运行程序时,并发程序因为相互制约,具有“执 ...
ThinkPHP中实例化对象M()和D()的区别
ThinkPHP中实例化对象M()和D()的区别 ThinkPHP中实例化对象M()和D()的区别?ThinkPHP如何实例化对象?在实例化的过程中,经常使用D方法和M方法,这两个方法的区别在于M方法 ...
PHP添加mcrypt扩展模块
PHP添加mcrypt扩展模块系统环境:CentOS6.3 APACHE:httpd-2.4.2 PHP:php-5.3.21 一.安装mcrypt 1.下载Libmcrypt,mhash,mcry ...
JSONP 安全攻防技术（JSON劫持、 XSS漏洞）
关于 JSONP JSONP 全称是 JSON with Padding ,是基于 JSON 格式的为解决跨域请求资源而产生的解决方案.他实现的基本原理是利用了 HTML 里 <script&g ...
/etc/fstab 官方文档
1什么是fstab 2fstab文件示例 3fstab 文件组成 4文件系统标识 4.1Kernel naming 4.2UUID 4.3Label 5建议 5.1atime 参数 5.2tmpfs ...
Springboot集成BeanValidation扩展一：错误提示信息加公共模板
Bean Validator扩展 1.需求在使用validator时,有个需求就是公用错误提示信息,什么意思? 举个例子: @NotEmpty非空判断,在资源文件中我不想每个非空判断都写”不 ...
nodejs处理高并发问题
做了一个nodejs并发测试,先描述一下环境数据库mysql,大概两张表,读取第一张表test的数据,拿出来-1,存到第二张testlog表记录一下,用jmeter同事模拟50个请求,结果发现, ...
15 Basic ‘ls’ Command Examples in Linux
FROM: http://www.tecmint.com/15-basic-ls-command-examples-in-linux/ ls command is one of the most fr ...

HDFS源码分析数据块复制选取复制源节点

HDFS源码分析数据块复制选取复制源节点的更多相关文章

随机推荐

热门专题