Hdfs block数据块大小的设置规则

1.概述

　　hadoop集群中文件的存储都是以块的形式存储在hdfs中。

2.默认值

　　从2.7.3版本开始block size的默认大小为128M，之前版本的默认值是64M.

3.如何修改block块的大小？

　　可以通过修改hdfs-site.xml文件中的dfs.blocksize对应的值。

　　注意：在修改HDFS的数据块大小时，首先停掉集群hadoop的运行进程，修改完毕后重新启动。

4.block块大小设置规则

　　在实际应用中，hdfs block块的大小设置为多少合适呢？为什么有的是64M，有的是128M、256M、512呢？

　　首先我们先来了解几个概念：

　　1）寻址时间：HDFS中找到目标文件block块所花费的时间。

　　2）原理：文件块越大，寻址时间越短，但磁盘传输时间越长；文件块越小，寻址时间越长，但磁盘传输时间越短。

5.block不能设置过大，也不要能设置过小

　　1）如果块设置过大，一方面从磁盘传输数据的时间会明显大于寻址时间，导致程序在处理这块数据时，变得非常慢；另一方面，MapReduce中的map任务通常一次只处理一个块中的数据，如果块过大运行速度也会很慢。

　　2）如果设置过小，一方面存放大量小文件会占用NameNode中大量内存来存储元数据，而NameNode的内存是有限的，不可取；另一方面块过小，寻址时间增长，导致程序一直在找block的开始位置。因此，块适当设置大一些，减少寻址时间，那么传输一个有多个块组成的文件的时间主要取决于磁盘的传输速度。

6.多大合适呢？

　　1）HDFS中平均寻址时间大概为10ms；

　　2）经过前任的大量测试发现，寻址时间为传输时间的1%时，为最佳状态，所以最佳传输时间为：

　　　　　　　　　　　　10ms/0.01=1000s=1s

　　3）目前磁盘的传输速度普遍为100MB/s，最佳block大小计算：

　　　　　　　　　　　　100MB/s*1s=100MB

　　　　所以我们设置block大小为128MB.

　　4）实际中，磁盘传输速率为200MB/s时，一般设定block大小为256MB;磁盘传输速率为400MB/s时，一般设定block大小为512MB.

Hdfs block数据块大小的设置规则的更多相关文章

hadoop学习；block数据块；mapreduce实现样例；UnsupportedClassVersionError异常；关联项目源代码
对于开源的东东,尤其是刚出来不久,我认为最好的学习方式就是能够看源代码和doc,測试它的样例为了方便查看源代码,关联导入源代码的项目先前的项目导入源代码是关联了源代码文件 block数据块,在配置 ...
hadoop得知；block数据块；mapreduce实现样例；UnsupportedClassVersionError变态；该项目的源代码相关联
对于开源的东西.特别是刚出来不久.我认为最好的学习方法是能够看到源代码,doc,样品测试为了方便查看源代码,导入与项目相关的源代码 watermark/2/text/aHR0cDovL2Jsb2cu ...
【Hadoop】HDFS冗余数据块的自动删除
HDFS冗余数据块的自动删除在日常维护hadoop集群的过程中发现这样一种情况: 某个节点由于网络故障或者DataNode进程死亡,被NameNode判定为死亡, HDFS马上自动开始数据块的容错拷 ...
HDFS冗余数据块的自动删除
HDFS冗余数据块的自动删除在日常维护hadoop集群的过程中发现这样一种情况: 某个节点由于网络故障或者DataNode进程死亡,被NameNode判定为死亡,HDFS马上自动开始数据块的容错拷贝 ...
HDFS读写数据块--${dfs.data.dir}选择策略
最近工作需要,看了HDFS读写数据块这部分.不过可能跟网上大部分帖子不一样,本文主要写了${dfs.data.dir}的选择策略,也就是block在DataNode上的放置策略.我主要是从我们工作需要 ...
Hadoop架构: HDFS中数据块的状态及其切换过程，GS与BGS
该系列总览: Hadoop3.1.1架构体系——设计原理阐述与Client源码图文详解 : 总览首先,我们要提出HDFS存储特点: 1.高容错 2.一个文件被切成块(新版本默认128MB一个块)在不 ...
HDFS概述（2）————Block块大小设置
以下内容转自:http://blog.csdn.net/samhacker/article/details/23089157?utm_source=tuicool&utm_medium=ref ...
HDFS中的数据块(Block)
我们在分布式存储原理总结中了解了分布式存储的三大特点: 数据分块,分布式的存储在多台机器上数据块冗余存储在多台机器以提高数据块的高可用性遵从主/从(master/slave)结构的分布式存储集群 ...
HDFS源码分析之数据块Block、副本Replica
我们知道,HDFS中的文件是由数据块Block组成的,并且为了提高容错性,每个数据块Block都会在不同数据节点DataNode上有若干副本Replica.那么,什么是Block?什么又是Replic ...

随机推荐

KEIL5 使用STM32 官方例程
1. 安装keil5,破解网上很多安装包/教程,跳过 2.下载官方固件库 https://www.st.com/content/st_com/en.html 在这里找微处理器,STM32 stand ...
codeforces 758D
D. Ability To Convert time limit per test 1 second memory limit per test 256 megabytes input standar ...
Polya定理应用实例
关于Polya原理的应用经典实例: 问题:用两种颜色去染排成一个圈的6个棋子,如果通过旋转得到只算作一种.问有多少种染色状态. 解:先将棋子表上号: 1 6 2 5 3 4 那么把所有通过旋转 ...
linux下新建用户
新建用户的两种方式: 一步步创建 useradd -m user1 #-m 是建立家目录 passwd user1 #设置密码 usermod -a -G root user1 #加入管理员 chsh ...
Hexo-域名设置+收录
Hexo-域名设置+Github域名加速+网址收录 Github.Gitee绑定域名,然后进行网址收录. 不想购买域名也完全可以进行网址收录. 购买阿里云域名 1.进入阿里云域名网站 2.进入价格详情 ...
JSON-LD & SEO
JSON-LD & SEO https://json-ld.org/ https://en.wikipedia.org/wiki/JSON-LD Google Search structure ...
WebAssembly in Action
WebAssembly in Action 数据加密,反爬虫,防盗链,版权保护,数据追踪,埋点 blogs 加密,js 禁用检测,权限控制 WebAssembly 防盗链 wasm online id ...
Taro Advanced
Taro Advanced aro 代码与小程序代码混写 https://nervjs.github.io/taro/docs/hybrid.html https://github.com/NervJ ...
zrender & svg
zrender & svg window.prompt double click https://codepen.io/xgqfrms/pen/jOEGNvw // https://cdn.x ...
PAUL ADAMS ARCHITECT：澳大利亚楼市保持涨势
澳大利亚最新房价变化显示,住宅价格指数连续第10周上涨,包括五个主要首府城市的上涨了0.29%. 12月截至24日,布里斯班以1.03%涨幅领跑,五个首府城市平均涨幅0.78%. 在过去3个月里,悉尼 ...

Hdfs block数据块大小的设置规则

Hdfs block数据块大小的设置规则的更多相关文章

随机推荐

热门专题