二、HDFS(架构、读写、NN)

一、HDFS定义

HDFS (Hadooop Distributed File System)，它是一个文件系统，用于存储文件，通过目录树来定位文件；其次，它是分布式的，由很多服务器联合走来实现其功能，集群中的服务器有各自的角色。

HDFS的使用场景：适合一次写入，多次读出的场景，且不支持文件的修改。适合用来做数据分析，并不适合用来做网盘应用。

二、HDFS优缺点

2.1、优点

1) 高容错性

数据自动保存多个副本。它通过增加副本的形式，提高容错性。
某一个副本丢失后，它可以自动恢复。

2) 适合处理大数据

数据规模：能够处理数据规模达GB、TB、甚至PB级别的数据；
文件规模：能够处理百万规模以上的文件数量，数量相当之大。

3) 可构建在廉价机器上，通过多副本机制，提高可靠性。

2.2 缺点

1）不适合低延时数据访问，比如毫秒级的存储数据，是做不到的

2）无法高效的对大量小文件进行存储

存储大量小文件的话，它会占用NameNode大量的内存来存储和目录和块信息。这样是不可取的，因为NameNode的内存总是有限的。
小文件存储的寻址时间会超过读取时间，它违反了HDFS的设计目标。

3）不支持并发写入、文件随机修改。

一个文件只能有一个写，不允许多个线程同时写
仅支持数据append(追加)，不支持文件的随机修改。

三、HDFS组成架构

四、HDFS写数据流程（参考）

1.Client调用DistributedFileSystem对象的create方法，创建一个文件输出流（FSDataOutputStream）对象。

2.通过DistributedFileSystem对象与Hadoop集群的NameNode进行一次RPC远程调用，在HDFS的Namespace中创建一个文件条目（Entry），该条目没有任何的Block。

3.通过FSDataOutputStream对象，向DataNode写入数据，数据首先被写入FSDataOutputStream对象内部的Buffer中，然后数据被分割成一个个Packet数据包。

4.以Packet最小单位，基于Socket连接发送到按特定算法选择的HDFS集群中一组DataNode（正常是3个，可能大于等于1）中的一个节点上，在这组DataNode组成的Pipeline上依次传输Packet。

5.这组DataNode组成的Pipeline反方向上，发送ack，最终由Pipeline中第一个DataNode节点将Pipeline ack发送给Client。

6.完成向文件写入数据，Client在文件输出流（FSDataOutputStream）对象上调用close方法，关闭流。

7.调用DistributedFileSystem对象的complete方法，通知NameNode文件写入成功。

在向HDFS中写数据的时候，当写某一副本时出错怎么处理？

1.首先会关闭管线。

2.将已经发送到管道中但是没有收到确认的数据包重新写回数据队列，这样无论哪个节点发生故障，都不会发生数据丢失。这个过程是在确认队列中将未收到确认的数据包删除，写回到数据队列。

3.然后当前正常工作的数据节点将会被赋予一个新的版本号（利用namenode中租约的信息可以获得最新的时间戳版本），这样故障节点恢复后由于版本信息不对，故障DataNode恢复后会被删除。

4.在当前正常的datanode中根据租约信息选择一个主DataNode，并与其他正常DataNode通信，获取每个DataNode当前数据块的大小，从中选择一个最小值，将每个正常的DataNode同步到该大小。然后重新建立管道。

5.在管线中删除故障节点，并把数据写入管线中剩下的正常的DataNode，即新的管道。

6.当文件关闭后，namenode发现副本数量不足时会在另一个节点上创建一个新的副本。

五、HDFS读数据流程

1.初始化FileSystem，然后客户端用FileSystem的open函数打开文件

2.FileSystem用RPC调用元数据节点，得到文件的数据块信息，对于每一个数据块，元数据节点返回保存数据块的数据节点的地址。

3.FileSystem返回FSDataInputStream给客户端，用来读取数据，客户端调用FSDI的read()函数开始读取数据。

4.FSDataInputStream连接保存此文件第一个数据块的最近的数据节点，data从数据节点读到客户端。

5.当此数据块读取完毕时，FSDataInputStream关闭和此数据节点的连接，然后连接此文件下一个数据块的最近的数据节点。

6.当客户端读取完毕数据的时候，调用FSDataInputStream的close函数。

7.在读取数据的过程中，如果客户端在与数据节点通信出现错误，则尝试连接包含此数据块的下一个数据节点。

8.失败的数据节点会被记录，此后不再连接。

六、NN和2NN工作机制 (Fsimage 与 EditLog定义及合并过程)

fsimage文件：即命名空间映像文件，是内存中的元数据在硬盘上的checkpoint，包含文件系统中的所有目录和文件inode的序列化信息。

edits：文件系统的写操作首先把它记录在edit中。

合并过程：

1.secondary namenode通过周期性（五分钟），通过getEditLog获取editlog大小，当其达到合并的大小时通过RollEditLog方法进行合并。

2.namenode停止使用edits文件，并生成一个新的临时的edits.new文件。

3.Secondarynamenode通过namenode内建的Http服务器，以get的方式获取edits与fsimage文件。Get方法中携带着fsimage与edits的路径。

4.Secondaryname将fsimage载入内存并逐一执行edits中的操作，生成新的fsimage文件。

5.执行结束后，会向namenode发送http请求，告知namenode合并结束，namenode通过http post的方式获取新fsimage文件。

6.Namenode更新fsimage文件中记录检查点执行的时间，并改名为fsimage文件。

7.Edit.new文件更名为edit文件。

注：由此可知namenode 与 secondarynamenode 有着相似的内存需求，因为secondarynamenode也会将fsimage载入内存，因此secondarynamenode需要运行在一台专门机器上。

七、DataNode工作机制

1）一个数据块在DataNode上以文件形式存储在磁盘上，包括两个文件，一个是数据本身，一个是元数据包括数据块的长度，块数据的校验和，以及时间戳。

2）DataNode启动后向NameNode注册，通过后，周期性（1小时）的向NameNode上报所有的块信息。

3）心跳是每3秒一次，心跳返回结果带有NameNode给该DataNode的命令如复制块数据到另一台机器，或删除某个数据块。如果超过10分钟没有收到某个DataNode的心跳，则认为该节点不可用。

4）集群运行中可以安全加入和退出一些机器。

二、HDFS(架构、读写、NN)的更多相关文章

大数据技术hadoop入门理论系列之二—HDFS架构简介
HDFS简单介绍 HDFS全称是Hadoop Distribute File System,是一个能运行在普通商用硬件上的分布式文件系统. 与其他分布式文件系统显著不同的特点是: HDFS是一个高容错 ...
06_Hadoop分布式文件系统HDFS架构讲解
mr 计算框架假如有三台机器统领者master 01 02 03 每台机器都有过滤的应用程序移动数据 01机== 300M >mr 移动计算 java程序传递给各个机器(mr) ...
HDFS 架构简述
HDFS 架构简述 Hadoop分布式文件系统(HDFS)是一个分布式的文件系统,运行在廉价的硬件上.它与现有的分布式文件系统有很多相似之处.然而与其他的分布式文件系统的差异也是显着的.HDFS是高容 ...
深入理解Hadoop之HDFS架构
Hadoop分布式文件系统(HDFS)是一种分布式文件系统.它与现有的分布式文件系统有许多相似之处.但是,与其他分布式文件系统的差异是值得我们注意的: HDFS具有高度容错能力,旨在部署在低成本硬件上 ...
hadoop之hdfs架构详解
本文主要从两个方面对hdfs进行阐述,第一就是hdfs的整个架构以及组成,第二就是hdfs文件的读写流程. 一.HDFS概述标题中提到hdfs(Hadoop Distribute File Syst ...
小记---------Hadoop读、写文件步骤，HDFS架构理解
Hadoop 是一个开源框架,可编写和运行分布式应用处理大规模数据 Hadoop框架的核心是HDFS 和 MapReduce HDFS是分布式文件系统(存储) MapReduce是分布式数据处理模型和 ...
2、Hdfs架构设计与原理分析
文章目录 1.Hadoop架构 2.HDFS体系架构 2.1NameNode 2.1.1元数据信息 2.1.2NameNode文件操作 2.1.3NameNode副本 2.1.4NameNode心跳机 ...
HDFS的读写流程——宏观与微观
HDFS的读写流程--宏观与微观 HDFS:分布式文件系统,负责存放数据分布式文件系统:就是将我们的数据放到多台电脑上存储. 写数据:就是将客户端上的数据上传到HDFS 宏观过程客户端向HDFS发 ...
HDFS 架构解析
本文以 Hadoop 提供的分布式文件系统(HDFS)为例来进一步展开解析分布式存储服务架构设计的要点. 架构目标任何一种软件框架或服务都是为了解决特定问题而产生的.还记得我们在 <分布式存储 ...
HDFS概述（1）————HDFS架构
概述 Hadoop分布式文件系统(HDFS)是一种分布式文件系统,用于在普通商用硬件上运行.它与现有的分布式文件系统有许多相似之处.然而,与其他分布式文件系统的区别很大.HDFS具有高度的容错能力,旨 ...

随机推荐

vscode使用formate格式化less遇到的坑
就是这个家伙我的代码 @input-padding-y : 8px;@input-padding-x : 12px; @input-padding-y-lg : @input-padding-y + ...
Django 的admin
admin使用 Django 自动管理工具是 django.contrib 的一部分.你可以在项目的 settings.py 中的 INSTALLED_APPS 看到它: # Application ...
centos7中启动tomcat提示bash: tomcat8.0.39/bin/startup.sh: 权限不够
问题描述: centos7中启动tomcat提示bash: tomcat8.0.39/bin/startup.sh: 权限不够解决方案:先进入bin目录 [root@localhost/]# cd ...
nginx典型官方模块解释
模块名称作用语法默认配置位置配置举例结果验证备注 1 --with-http_stub_status_module 监控Nginx的服务器连接状态 stub_status serve ...
SpringCloud学习笔记（八、SpringCloud Bus）
目录: 什么是bus消息总栈如何使用bus消息总栈什么是bus消息总栈 SpringCloud Bus使用轻量的消息代理连接分布式系统的各个节点,可以用于系统状态变更时的广播(如配置变更)或其它管 ...
ora-01489 字符串连接的结果过长解决方案
如下代码,使用listagg进行分组拼接时,常常会报 ora-01489 错误,造成该报错的主要原因是:oracle对字符变量的长度限制,正常情况下,oracle定义的varchar2类型变量的长度不 ...
coco数据集标注图转为二值图python（附代码）
coco数据集大概有8w张以上的图片,而且每幅图都有精确的边缘mask标注. 后面后分享一个labelme标注的json或xml格式转二值图的源码(以备以后使用) 而我现在在研究显著性目标检测,需要的 ...
[NewLife.XCode]角色权限
NewLife.XCode是一个有10多年历史的开源数据中间件,支持nfx/netcore,由新生命团队(2002~2019)开发完成并维护至今,以下简称XCode. 整个系列教程会大量结合示例代码和 ...
Oracle数据库的关键系统服务整理
在Windows 操作系统下安装Oracle 9i时会安装很多服务——并且其中一些配置为在Windows 启动时启动.在Oracle 运行在Windows 下时,有些服务可能我们并不总是需要但又害怕停 ...
nginx 日志配置log_format用法
nginx服务器日志相关指令主要有两条: 1.一条是log_format,用来设置日志格式: 2.另外一条是access_log,用来指定日志文件的存放路径.格式和缓存大小,可以参加ngx_http_ ...

二、HDFS(架构、读写、NN)

二、HDFS(架构、读写、NN)的更多相关文章

随机推荐

热门专题