Hadoop权威指南:HDFS-数据流
Hadoop权威指南:HDFS-数据流
剖析文件读取
- 客户端通过调用
FileSystem
对象的open()
方法来打开希望读取的文件,对于HDFS来说, 这个对象是分布式文件系统的一个实例 DistributedFiltSystem
通过使用RPC来调用namenode
,以确定文件起始块的位置.
- 对于每一个块,
namenode
返回存有该块副本的datanode
的地址,这些datanode根据它们与客户端的距离来排序(根据集群的网络拓扑) DistributedFileSystem
类返回一个FSDataInputStream
对象(一个支持文件定位的输入流)给客户端并读取数据FSDataInputStream
类转而封装DFSInputStream
对象, 该对象管理着datanode
和namenode
的 I/O操作.
- 接着, 客户端对这个输入流调用read()方法
- 存储着文件起始几个块的
datanode
地址的DFSInputStream
随即连接距离最近的datanode
, 通过对数据流反复调用read()
方法, 可以将数据从datanode
传输到客户端 - 到达块的末端时,
DFSInputStream
关闭与该datanode
的连接, 然后寻找下一个块的最佳datanode
客户端只需要读取连续的流,并且对于客户端都是透明的
- 客户端从流中读取数据时,块是按照打开
DFSInputStream
与datanode
新建连接的顺序读取的.一旦客户端完成读取,就对FSDataInputStream
调用cloase()
方法
几点说明
- 在读取数据的时候,如果
DFSInputStream
与datanode
通讯时遇到错误,会尝试从这个块的另外一个最邻近datanode
读取数据,也会记住那个故障datanode
namenode
告知客户端每个块中最佳的datanode
, 并让客户端直接连接到该datanode
检索数据namenode
只需要相应块位置的请求(这些信息储存在内存中)
剖析文件写入
- 客户端通过对
DistributedFileSystem
对象调用create()
函数来新建文件 DistributedFileSystem
对namenode
创建一个RPC调用, 在文件系统的命名空间中新建一个文件, 此时该文件中还没有相应的数据块namenode
检查文件是否存在及客户端是否有该文件的权限
- 检查通过,
namenode
就会为创建新文件记录一条记录 - 否则,文件创建失败,并向客户端抛出一个
IOException
异常
DistributedFileSystem
向客户端返回一个FSDataOutputStream
对象,由此客户端可以开始写入数据FSDataOutputStream封装一个DFSOutputStream对象, 该对象负责处理
datanode
和namenode
之间的通讯在客户端写入数据时,
DFSOutputStream
将它分成一个个的数据包, 并写入内部队列, 称为 "数据队列".DataStreamer
处理数据队列,它的责任是根据datanode
列表来要求namenode
分配适合的新块来储存数据副本客户端完成数据的写入后, 对数据流调用
close()
方法,该操作将剩余的所有数据包写入datanode
管线,并在联系到namenode
且发送文件写入完成信号之前,等待确认namenode
已经知道文件由哪些块组成(通过DataStreamer
请求分配数据块),所以它在返回成功前只需等待数据块进行最小量复制
一致模型
文件系统的一致模型(coherency model)描述了文件读写的数据可见性,HDFS为性能牺牲了一些POSIX要求
- 新建一个文件之后,能在文件系统的命名空间中立即可见, 但是文件的内容不保证能立即可见,及时数据流已经刷新(
out.flush()
)并存储 - 当前正在写入的块对其他reader不可见,HDFS提供一个方法来使所有缓存与数据节点强行同步,即对
FSDataOutputStream
调用sync()
方法.当sync()
方法返回成功后,对所有新的reader而言,HDFS能保证文件中到目前为止写入的数据均到达所有datanode的写入管道并且对所有新的reader均可见
Path p = new Path("p");
FSDataOutputStream out = fs.create(p);
out.write("content".getBytes("UTF-8"));
out.flush();
out.sync();
- 在HDFS中关闭文件其实还隐含执行
sync()
方法
如果不调用sync()
方法,在客户端或系统发生故障时可能还丢失数据块
Hadoop权威指南:HDFS-数据流的更多相关文章
- Hadoop权威指南:压缩
Hadoop权威指南:压缩 [TOC] 文件压缩的两个好处: 减少储存文件所需要的磁盘空间 加速数据在网络和磁盘上的传输 压缩格式总结: 压缩格式 工具 算法 文件扩展名 是否可切分 DEFLATE ...
- 《Hadoop权威指南》读书笔记1
<Hadoop权威指南>读书笔记 Day1 第一章 1.MapReduce适合一次写入.多次读取数据的应用,关系型数据库则更适合持续更新的数据集. 2.MapReduce是一种线性的可伸缩 ...
- Hadoop权威指南:通过FileSystem API读取数据
Hadoop权威指南:通过FileSystem API读取数据 [TOC] 在Hadoop中,FileSystem是一个通用的文件系统API 获取FileSystem实例的几个静态方法 public ...
- Hadoop权威指南:从Hadoop URL读取数据
[TOC] Hadoop权威指南:从Hadoop URL读取数据 使用java.net.URL对象从Hadoop文件系统读取文件 实现类似linux中cat命令的程序 文件名 HDFSCat.java ...
- Hadoop权威指南:数据完整性
Hadoop权威指南:数据完整性 [TOC] 常用的错误检测码是CRC-32(循环冗余校验) HDFS的数据完整性 HDFS会对写入的所有数据计算校验和,并在读取数据时验证校验和 datanode负责 ...
- Hadoop权威指南:HDFS-Hadoop存档
Hadoop权威指南:HDFS-Hadoop存档 [TOC] 每个文件按块方式存储, 每个块的元数据存储在namenode的内存中 Hadoop存档文件或HAR文件是一个更高效的文件存档工具,它将文件 ...
- Hadoop权威指南:通过distcp并行复制
Hadoop权威指南:通过distcp并行复制 distcp是一个分布式复制程序,改程序可以从Hadoop文件系统间复制大量数据,也可以将大量的数据复制到Hadoop中 distcp的典型应用是在两个 ...
- Hadoop权威指南:HDFS-目录,查询文件系统,删除文件
Hadoop权威指南:HDFS-目录,查询文件系统,删除文件 [TOC] 目录 FileSystem实例提供了创建目录的方法 public boolean mkdirs(Path f) throws ...
- Hadoop权威指南:HDFS-写入数据
Hadoop权威指南:HDFS-写入数据 FileSystem类有一系列的新建文件的方法.最简单的方法是给准备建的文件指定一个Path对象,然后返回一个用于写入数据的输出流: public FSDat ...
随机推荐
- -linux删除大量文件----rm,rsync
要在linux下删除海量文件,比如有数十万个文件,此时常用的rm -rf * 就会等待时间很长.这时我们可以使用rsync快速删除大量文件. 1.建立一个空目录 mkdir -p /tmp/rsync ...
- 用 JS 点击左右按钮 使图片切换 - 最精简版-ljx2380000-ChinaUnix博客
body { font-family: "Microsoft YaHei UI","Microsoft YaHei",SimSun,"Segoe UI ...
- TFS-Git官方教程
VS2015:官网教程 VS2013: GIT教程
- 远离DoS攻击 Windows Server 2016发布DNS政策
Windows Server 2016的网络功能虽然没有获得像Docker容器和Nano Server同等重要的关注,但是管理员们应该了解的是,新的域名系统(Domain Name ...
- iOS开发——发短信,邮件
在IOS开发中,有时候我们会需要用到邮件发送的功能.比如,接收用户反馈和程序崩溃通知等等,这个功能是很常用的.在苹果系统中,如果彼此的手机都是iOS设备,并且开通了iMessage功能,那么彼此之间的 ...
- USB自定义HID设备实现-LPC1768
首先在之前鼠标的基础上修改设备描述符 #include "usbdesc.h" //usb标准设备描述符 const U8 USB_DeviceDescriptor[] = { U ...
- onethink的熟悉
2014.07.14 下载后,并安装成功! 发现一个安装的问题.安装时,无法直接成功. 修改Url 直接跳到最后一步,实现了安装.去官网查询,发现是程序的问题. 尝试构建企业官网. 首先 实现一个企业 ...
- iOS 架构模式
参考:http://www.cocoachina.com/ios/20160108/14916.html MVC , MVP , MVVM , VIPER
- 单例--iOS
GCD单例: static ModulesManager * sharedManager = nil; + (id)sharedInstance { static dispatch_once_t on ...
- redis 安装启动及设置密码<windows>
redis 1. 安装 1.1 下载解压包,直接解压到任意路径下即可 windows下载地址:ttps://github.com/MSOpenTech/redis/releases 2.启动 2.1 ...