Hadoop权威指南:FSDataInputStream对象】的更多相关文章

Hadoop权威指南:FSDataInputStream对象 FileSystem对象中的open()方法返回的是FSDataInputStream对象, 而不是标准的java.io类对象,这个类是继承了java.io.DataInputStream接口的一个特殊类,并支持随机访问,可以从流中的任意位置读取数据 package org.apache.hadoop.fs; public class FSDataInputStream extends DataInputStream implemen…
Hadoop权威指南:通过FileSystem API读取数据 [TOC] 在Hadoop中,FileSystem是一个通用的文件系统API 获取FileSystem实例的几个静态方法 public static FileSystem get(Configureation conf) throws IOException public static FileSystem get(URI uri, Configureation conf) throws IOException public sta…
Hadoop权威指南:HDFS-数据流 [TOC] 剖析文件读取 客户端通过调用FileSystem对象的open()方法来打开希望读取的文件,对于HDFS来说, 这个对象是分布式文件系统的一个实例 DistributedFiltSystem通过使用RPC来调用namenode,以确定文件起始块的位置. 对于每一个块,namenode返回存有该块副本的datanode 的地址,这些datanode根据它们与客户端的距离来排序(根据集群的网络拓扑) DistributedFileSystem类返回…
Hadoop权威指南:HDFS-写入数据 FileSystem类有一系列的新建文件的方法.最简单的方法是给准备建的文件指定一个Path对象,然后返回一个用于写入数据的输出流: public FSDataOutputStream create(Path f) throws IOException 此方法有多个重载版本, 指定是否需要覆盖现有文件,文件备份数量,写入文件时所用缓冲区大小,文件块大小及文件权限. creata()方法能够为需要写入且当前不存在的文件创建父目录. 调用exists()方法…
[TOC] Hadoop权威指南:从Hadoop URL读取数据 使用java.net.URL对象从Hadoop文件系统读取文件 实现类似linux中cat命令的程序 文件名 HDFSCat.java 程序代码 import org.apache.hadoop.fs.FsUrlStreamHandlerFactory; import org.apache.hadoop.io.IOUtils; import java.io.IOException; import java.io.InputStre…
Hadoop权威指南:压缩 [TOC] 文件压缩的两个好处: 减少储存文件所需要的磁盘空间 加速数据在网络和磁盘上的传输 压缩格式总结: 压缩格式 工具 算法 文件扩展名 是否可切分 DEFLATE 无 DEFLATE .deflate 否 Gzip gzip DEFLATE .gz 否 bzip2 bzip2 bzip2 .bz2 是 LZO lzop LZO .lzo 否 LZ4 无 LZ4 .lz4 否 Snappy 无 Snappy .snapp 否 上述表中的所有压缩工具都提供9个不同…
Hadoop权威指南:数据完整性 [TOC] 常用的错误检测码是CRC-32(循环冗余校验) HDFS的数据完整性 HDFS会对写入的所有数据计算校验和,并在读取数据时验证校验和 datanode负责在收到数据后储存该数据及其验证校验和 客户端从datanode读取数据时也会验证校验和,与datanode中存储的校验和进行比较 每个datanode均持久保存一个用于验证的校验和日志 每个datanode也会在一个后台线程中运行一个DataBlockScanner,定期验证存储在这个datanod…
Hadoop权威指南:HDFS-目录,查询文件系统,删除文件 [TOC] 目录 FileSystem实例提供了创建目录的方法 public boolean mkdirs(Path f) throws IOException 这个方法一次性创建所有必要但还没有的父目录 通常不需要显式创建一个目录,因为调用create()方法写入文件时会自动创建所有父目录 查询文件系统 文件元数据:FileStatus FileStatus类封装了文件系统中文件和目录的元数据包括文件长度,块大小,副本,修改时间,所…
HDFS简单介绍 声明:本文是本人基于Hadoop权威指南学习的一些个人理解和笔记,仅供学习參考.有什么不到之处还望指出,一起学习一起进步. 转载请注明:http://blog.csdn.net/my_acm Hadoop说白了就是一个提供了处理分析大数据的文件集群,当中最重要的无疑是HDFS(Hadoop Distributed File System)即Hadoop分布式文件系统. 1. HDFS是一种以流式数据訪问模式(一次写入多次读取的模式)存储超大文件的系统. 其不须要的高端的硬件系统…
下载地址 Hadoop权威指南(中文版,第2版) http://download.csdn.net/download/u011000529/5726789 (友情提示:请点击右下的 “联通下载” 或者 “电信下载”图片均可以下载) 其他上传的书籍资源请访问: http://download.csdn.net/user/u011000529…