hdfs的datanode工作原理

datanode的作用:

　　(1)提供真实文件数据的存储服务。

　　(2)文件块（block）：最基本的存储单位。对于文件内容而言，一个文件的长度大小是size，那么从文件的０偏移开始，按照固定的大小，顺序对文件进行划分并编号，划分好的每一个块称一个Block。HDFS默认Block大小是128MB，以一个256MB文件，共有256/128=2个Block.

　　　　配置在hdfs-site.xml中配置:　　dfs.block.size

　　(3)不同于普通文件系统的是，HDFS中，如果一个文件小于一个数据块的大小，并不占用整个数据块存储空间Replication。多复本。默认是三个。也可以在hdfs-site.xml中配置:

　　如下修改副本数量为1(因为只有一个节点):

<property>

<name>dfs.replication</name>

<value>1</value>

</property>

下面进行测试:

(1)首先删除hdfs所有的所有文件:

[root@localhost ~]# hadoop fs -ls hdfs://localhost:9000/

Found  items

-rwxrwxrwx    hadoop supergroup       -- : hdfs://localhost:9000/install.log

drwx------   - root   supergroup           -- : hdfs://localhost:9000/tmp

drwxr-xr-x   - root   supergroup           -- : hdfs://localhost:9000/user

drwxr-xr-x   - root   supergroup           -- : hdfs://localhost:9000/wordcount

[root@localhost ~]# hadoop fs -rm -r hdfs://localhost:9000/*   #删除文件

// :: INFO fs.TrashPolicyDefault: Namenode trash configuration: Deletion interval =  minutes, Emptier interval =  minutes.

Deleted hdfs://localhost:9000/install.log

// :: INFO fs.TrashPolicyDefault: Namenode trash configuration: Deletion interval =  minutes, Emptier interval =  minutes.

Deleted hdfs://localhost:9000/tmp

// :: INFO fs.TrashPolicyDefault: Namenode trash configuration: Deletion interval =  minutes, Emptier interval =  minutes.

Deleted hdfs://localhost:9000/user

// :: INFO fs.TrashPolicyDefault: Namenode trash configuration: Deletion interval =  minutes, Emptier interval =  minutes.

Deleted hdfs://localhost:9000/wordcount

[root@localhost ~]# hadoop fs -ls hdfs://localhost:9000/

[root@localhost ~]#

(2)上传一个文件:

[root@localhost java]# ll

total

drwxr-xr-x.  uucp         Jun    jdk1..0_65

-rw-r--r--.  root root  Apr  : jdk-7u65-linux-i586.tar.gz

[root@localhost java]# hadoop fs -put ./jdk-7u65-linux-i586.tar.gz /　　#上传文件到hdfs根目录

[root@localhost java]# hadoop fs -ls /

Found  items

-rw-r--r--    root supergroup   -- : /jdk-7u65-linux-i586.tar.gz

(3)到本地hdfs存放文件的地方查看文件:

[root@localhost finalized]# pwd　　#hdfs存放文件的地方

/opt/hadoop/hadoop-2.4.1/data/dfs/data/current/BP-1623988768-127.0.0.1-1523440267982/current/finalized

[root@localhost finalized]# ll　　#查看文件

total

-rw-r--r--.  root root  Apr  : blk_1073741855

-rw-r--r--.  root root    Apr  : blk_1073741855_1031.meta

-rw-r--r--.  root root    Apr  : blk_1073741856

-rw-r--r--.  root root      Apr  : blk_1073741856_1032.meta

　　(1)发现/opt/hadoop/hadoop-2.4.1/data/dfs/data/current/BP-1623988768-127.0.0.1-1523440267982/current/finalized是hdfs存放文件的路径。

　　(2)存放的文件以blk_blkId命名，且一个文件对应一个元数据信息，且同一个文件的不同blk的blkId(block ID)是连续的。上面上传的文件被分成2个block

　　(3)上面的blk_1073741855是第一个block，大小为134217728，计算:134217728/1024/1024=128,也就是第一个blk的大小正好的128M。加上下面的blk正好是文件的大小

　　或者

以下面这种方式查看文件大小:

[root@localhost finalized]# du -h  ./*

128M    ./blk_1073741855

1.1M    ./blk_1073741855_1031.meta

9.0M    ./blk_1073741856

72K     ./blk_1073741856_1032.meta

(4)实际上block就是文件，只是因为文件被拆分，所以如果我们如果将文件合并就可以像处理原始文件一样处理文件。这也是hdfs的机制，将文件按默认块大小分割开，最后按照顺序将块合并组成源文件。

将文件拷贝到用户工作目录:

[root@localhost finalized]# cp ./blk_1073741855 ~/

[root@localhost finalized]# cp ./blk_1073741856 ~/

合并两个block并查看合并后的文件大小:(合并后的大小等于上传的源文件大小)

[root@localhost ~]# cat ./blk_1073741856 >> ./blk_1073741855　　#合并文件

[root@localhost ~]# ll | grep blk

-rw-r--r--.  root root  Apr  : blk_1073741855

-rw-r--r--.  root root    Apr  : blk_1073741856

查看文件类型并且解压缩文件:

[root@localhost ~]# file ./blk_1073741855 #查看文件类型

./blk_1073741855: gzip compressed data, from Unix, last modified: Mon Jun  ::

[root@localhost ~]# tar -zxvf ./blk_1073741855

解压缩后结果:

[root@localhost ~]# ls

anaconda-ks.cfg  blk_1073741855  blk_1073741856  install.log  install.log.syslog  jdk1..0_65  startHadoop.sh  test

[root@localhost ~]# pwd

/root

[root@localhost ~]# cd jdk1..0_65/bin/

[root@localhost bin]# ./java -version

java version "1.7.0_65"

Java(TM) SE Runtime Environment (build 1.7.0_65-b17)

Java HotSpot(TM) Client VM (build 24.65-b04, mixed mode)

总结:

　　datanode实际上是将文件按block分开，每个block的大小可以设定，默认每个block为128M(一个block对应一个meta元数据信息)，也就是如果文件不够128M是一个block，如果是129M就会被分成两个block(第一个128M，第二个1M)。当我们访问文件的时候，hdfs会将block按顺序合并之后返回给我们，我们也就得到完整的文件。

hdfs的datanode工作原理的更多相关文章

第四次作业描述HDFS体系结构、工作原理与流程
1.用自己的图,描述HDFS体系结构.工作原理与流程. 读数据的流程 2.伪分布式安装Hadoop.
hdfs namenode/datanode工作机制
一. namenode工作机制 1. 客户端上传文件时,namenode先检查有没有同名的文件,如果有,则直接返回错误信息.如果没有,则根据要上传文件的大小以及block的大小,算出需要分成几个blo ...
HDFS中DataNode工作机制
1.DataNode工作机制 1)一个数据块在datanode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据(包括数据块的长度,块数据的校验和,以及时间戳). 2)DataNod ...
DataNode工作原理(四)
DataNode的作用:提供真实文件数据的存储服务.以文件块进行存储. 文件块(block):最基本的存储单位.对文件内容而言,一个文件的长度大小是size,那么从文件的0偏移开始,按照固定的大小,顺 ...
大数据 --> 分布式文件系统HDFS的工作原理
分布式文件系统HDFS的工作原理 Hadoop分布式文件系统(HDFS)是一种被设计成适合运行在通用硬件上的分布式文件系统.HDFS是一个高度容错性的系统,适合部署在廉价的机器上.它能提供高吞吐量的数 ...
NameNode与DataNode的工作原理剖析
NameNode与DataNode的工作原理剖析作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.HDFS写数据流程 >.客户端通过Distributed FileSyst ...
Hadoop分布式文件系统HDFS的工作原理
Hadoop分布式文件系统(HDFS)是一种被设计成适合运行在通用硬件上的分布式文件系统.HDFS是一个高度容错性的系统,适合部署在廉价的机器上.它能提供高吞吐量的数据访问,非常适合大规模数据集上的应 ...
HDFS的工作原理扫扫盲
问题导读: 1.什么是分布式文件系统? 2.怎样分离元数据和数据? 3.HDFS的原理是什么? Hadoop分布式文件系统(HDFS)是一种被设计成适合运行在通用硬件上的分布式文件系统.HDFS是一个 ...
【转载】Hadoop分布式文件系统HDFS的工作原理详述
转载请注明来自36大数据(36dsj.com):36大数据 » Hadoop分布式文件系统HDFS的工作原理详述转注:读了这篇文章以后,觉得内容比较易懂,所以分享过来支持一下. Hadoop分布式文 ...

随机推荐

PHP面向对象之抽象类，抽象方法
抽象类,抽象方法抽象类: 是一个不能实例化的类: 定义形式: abstract class 类名{} 为什么需要抽象类: 它是为了技术管理而设计! 抽象方法: 是一个只有方法头,没有方法体的方法 ...
Android应用流量测试
工具 GT(中文产品名称:随身调):是腾讯出品的开源调试工具,本次测试中用其进行手机的流量统计和抓包.请在Android手机上安装GT应用(可以通过官网或应用宝下载). Wireshark:抓包的分析 ...
使用JMeter录制Web应用测试脚本
环境操作系统:Windows 7 工具:JMeter.Badboy 1. 使用代理录制Web性能测试脚本使用代理录制脚本来创建测试计划无疑是一个简便的方法,代理所要完成的工作就是录制发往服务器的请 ...
python 序列化 pickle shelve json configparser
1. 什么是序列化我们把变量从内存中变成可存储或传输的过程称之为序列化. 序列化之后,就可以把序列化后的内容写入磁盘,或者通过网络传输到别的机器上. 反过来,把变量内容从序列化的对象重新读到内存里称 ...
Contest 6
A:容易发现这要求所有子集中元素的最高位1的位置相同,并且满足这个条件也是一定合法的.统计一下即可. #include<iostream> #include<cstdio> # ...
「美团 CodeM 资格赛」跳格子
题目描述 nnn 个格子排成一列,一开始,你在第一个格子,目标为跳到第 n 个格子.在每个格子 i 里面你可以做出两个选择: 选择「a」:向前跳 ai 步. 选择「b」:向前跳 bi 步. 把每步 ...
Docker学习笔记二：Docker常用命令及提升拉取镜像的速度
一.Docker命令: 1.docker images //命令用来查看docker中所包含的镜像信息 2.docker ps -a //命令用来查看docker中所包含所有容器信息(运行状 ...
埃及分数&&The Rotation Game&&骑士精神——IDA*
IDA*:非常好用的搜索,可以解决很多深度浅,但是规模大的搜索问题. 估价函数设计思路:观察一步最多能向答案靠近多少. 埃及分数题目大意: 给出一个分数,由分子a 和分母b 构成,现在要你分解成一系 ...
[ZJOI2011]细胞——斐波那契数列+矩阵加速+dp
Description bzoj2323 Solution 题目看起来非常复杂. 本质不同的细胞这个条件显然太啰嗦, 是否有些可以挖掘的性质? 1.发现,只要第一次分裂不同,那么互相之间一定是不同的( ...
uniqid()
uniqid() 函数基于以微秒计的当前时间,生成一个唯一的 ID.

hdfs的datanode工作原理

datanode的作用:

总结:

hdfs的datanode工作原理的更多相关文章

随机推荐

热门专题