大数据：Hadoop（HDFS 读写数据流程及优缺点）

一、HDFS 写数据流程

写的过程：

CLIENT（客户端）：用来发起读写请求，并拆分文件成多个 Block；
NAMENODE：全局的协调和把控所有的请求，提供 Block 存放在 DataNode 上的地址；
DATANODE：负责数据的存储，可以有很多个；

客户端想 NameNode 发出请求（包含 Blocksize 和副本数）；
NameNode 经过计算，反馈给客户端相同副本数的 DataNode，切给出的 DataNode 有优先存储顺序要求；（数据与 DataNode 对应时，一般移动计算，不移动数据）
客户端得到信息后开始写数据，当第一个 DataNode 接受 Block 时，会将该数据传给第二个 DataNode ，第二个 DataNode 接受到数据时，也会将该数据传递给第三个 DataNode；在最后一个 DataNode 接受数据完毕时，则该 Block 全部传输完毕；
DataNode 在接受数据完毕后，每一个 DataNode 都会将完毕信息传递给 NameNode；
NameNode 将所有 DataNode 反馈的信息（所有数据以传输完毕），反馈给客户端；
客户端接受到 NamaNode 反馈的信息后（第一个 Block 传输完毕），开始发送请求传输第二个 Block；
传输完毕后，在关闭请求之前，NameNode 将该文件所有 Block 存放在 DataNode 上的 ID 保存在文件中；

二、HDFS 读数据的流程

客户端：提供文件名、副本数、Block 数量、Block 地址；
NameNode：提供 DataNode 地址及内部位置；

客户端提供提供文件名、副本数、Block 数量、Block 地址给 NameNode；
NameNode 收到请求后，根据请求给出副本及其 Block 所存放的 DataNode，以及Block 在 DataNode 中存放的位置；
客户端根据 NameNode 给的信息，给 DataNode 发出请求，由 DataNode 给出数据所在的具体块的信息；
客户端根据 DataNode 提供的信息，下载数据；

如果 DataNode 损坏、DataNode 上的数据丢失、数据块异常或者损坏等异常，HDFS会有相应的故障容错措施：

三、HDFS 的优缺点总结

优点：

数据冗余（文件以 Block 并且多副本的方式存储在集群的节点上）、硬件容错；
处理流式的数据访问；（一次写入，多次读取）
适合存储大文件；（通过扩展 DataNode 来实现存储大文件）
可构建在廉价的机器上；（降低成本）

缺点：

低延迟的数据访问；（一般数据较大，不容易实现在秒级别检索数据）
不适合小文件的存储；（无论文件大小，都有对应的元数据存放在 NameNode 上，如果小文件较多，则对应的元数据较多，对应的元数据所占用的内存信息较大，给NameNode 压力较大）

大数据：Hadoop（HDFS 读写数据流程及优缺点）的更多相关文章

Hadoop -- HDFS 读写数据
一.HDFS读写文件过程 1.读取文件过程 1) 初始化FileSystem,然后客户端(client)用FileSystem的open()函数打开文件 2) FileSyst ...
HDFS读写数据块--${dfs.data.dir}选择策略
最近工作需要,看了HDFS读写数据块这部分.不过可能跟网上大部分帖子不一样,本文主要写了${dfs.data.dir}的选择策略,也就是block在DataNode上的放置策略.我主要是从我们工作需要 ...
我要进大厂之大数据Hadoop HDFS知识点（2）
01 我们一起学大数据老刘继续分享出Hadoop中的HDFS模块的一些高级知识点,也算是对今天复习的HDFS内容进行一次总结,希望能够给想学大数据的同学一点帮助,也希望能够得到大佬们的批评和指点! ...
我要进大厂之大数据Hadoop HDFS知识点（1）
01 我们一起学大数据老刘今天开始了大数据Hadoop知识点的复习,Hadoop包含三个模块,这次先分享出Hadoop中的HDFS模块的基础知识点,也算是对今天复习的内容进行一次总结,希望能够给想学 ...
HDFS 读写数据流程
一.上传数据二.下载数据三.读写时的节点位置选择 1.网络节点距离(机架感知) 下图中: client 到 DN1 的距离为 4 client 到 NN 的距离为 3 DN1 到 DN2 的距离为 ...
HDFS读写数据流程
HDFS的组成 1.NameNode:存储文件的元数据,如文件名,文件目录结构,文件属性(创建时间,文件权限,文件大小) 以及每个文件的块列表和块所在的DataNode等.类似于一本书的目录功能. 2 ...
大数据 - hadoop - HDFS+Zookeeper实现高可用
高可用(Hign Availability,HA) 一.概念作用:用于解决负载均衡和故障转移(Failover)问题. 问题描述:一个NameNode挂掉,如何启动另一个NameNode.怎样让两个 ...
HDFS读写数据过程
一.文件的打开 1.1.客户端 HDFS打开一个文件,需要在客户端调用DistributedFileSystem.open(Path f, int bufferSize),其实现为: public F ...
大数据Hadoop——HDFS Shell操作
一.查询目录下的文件 1.查询根目录下的文件 Hadoop fs -ls / 2.查询文件夹下的文件 Hadoop fs -ls /input 二.创建文件夹 hadoop fs -mkdir /文件 ...

随机推荐

nginx 日志之 access_log分割
如果任由访问日志写下去,日志文件会变得越来越大,甚至是写满磁盘. 所以,我们需要想办法把日志做切割,比如每天生成一个新的日志,旧的日志按规定时间删除即可. 实现日志切割可以通过写shell脚本或者系统 ...
WPF 数据绑定,界面刷新的两种方法-----INotifyPropertyChanged
.Netformwork4.0及以下版本 -------INotifyPropertyChanged 命名空间: System.ComponentModel 后台代码 public partial c ...
第08组 Beta冲刺（1/5）
队名:955 组长博客:点这里! 作业博客:点这里! 组员情况组员1(组长):庄锡荣过去两天完成了哪些任务文字/口头描述检测网站不合理的地方,给组员定下相应时间进度的安排展示GitHub当 ...
使用Swagger2构建SpringMVC项目中的Restful API文档
使用Swagger自动生成API文档,不仅增加了项目的可维护性,还提高了API的透明度更利于快速测试等工作,便于更快地发现和解决问题. 本篇文章只记录整合过程,关于Security Configura ...
LOAM笔记
CSDN有篇结合paper分析代码的博文,下面是我对paper的理解: 1. 综述整个LOAM本质就是一个激光里程计,没有闭环检测,也就没有图优化框架在里面,该算法把SLAM问题分为两个算法同时运行 ...
cad.net 图元延迟显示,动画效果,编辑器延迟发送提示.
public class Command_test { [CommandMethod("tt", CommandFlags.Modal | CommandFlags.UsePick ...
可靠性、幂等性和事务 Kafka
Kafka笔记—可靠性.幂等性和事务分类: 消息队列标签: kafka 这几天很忙,但是我现在给我的要求是一周至少要出一篇文章,所以先拿这篇笔记来做开胃菜,源码分析估计明后两天应该能写一篇.给 ...
PostgreSQL中的Toast Pointer
1.分析背景在使用数据库的过程中(PG的版本为9.2),遇到了错误"missing chunk number 0 for toast value XX in pg_toast_2619&q ...
深入理解JVM-对象已死吗
在堆中存放着Java世界中几乎所有的对象的实例,垃圾收集器在对堆进行垃圾回收前,第一件事情就是要确定这些对象中还有那些是"存活"着,那些已经死去(即不能再被任何途径使用的对象). ...
fio压测
目录 fio工具介绍参数介绍测试举例模板如下: 四路服务器测试的小tips fio工具介绍用于测试存储设备IO性能. 当存储设备中存在用户数据时,严谨使用fio进行写操作!!! 参数介绍 rw ...

大数据：Hadoop（HDFS 读写数据流程及优缺点）

一、HDFS 写数据流程

写的过程：

二、HDFS 读数据的流程

如果 DataNode 损坏、DataNode 上的数据丢失、数据块异常或者损坏等异常，HDFS会有相应的故障容错措施：

三、HDFS 的优缺点总结

优点：

缺点：

大数据：Hadoop（HDFS 读写数据流程及优缺点）的更多相关文章

随机推荐

热门专题