Hadoop权威指南:HDFS-Hadoop存档

【Hadoop权威指南:HDFS-Hadoop存档】的更多相关文章

Hadoop权威指南:从Hadoop URL读取数据

[TOC] Hadoop权威指南:从Hadoop URL读取数据使用java.net.URL对象从Hadoop文件系统读取文件实现类似linux中cat命令的程序文件名 HDFSCat.java 程序代码 import org.apache.hadoop.fs.FsUrlStreamHandlerFactory; import org.apache.hadoop.io.IOUtils; import java.io.IOException; import java.io.InputStre…

《Hadoop权威指南》(Hadoop:The Definitive Guide) 气象数据集下载脚本

已过时,无法使用从网上找到一个脚本,修改了一下 #!/bin/bash CURRENT_DIR=$(cd `dirname $0`; pwd) [ -e $CURRENT_DIR/ncdc ] || mkdir $CURRENT_DIR/ncdc [ -e $CURRENT_DIR/ncdc/files ] || mkdir $CURRENT_DIR/ncdc/files for i in `seq 1901 2012` do cd $CURRENT_DIR/ncdc/ wget -r -np…

Hadoop权威指南:HDFS-Hadoop存档

Hadoop权威指南:HDFS-Hadoop存档 [TOC] 每个文件按块方式存储, 每个块的元数据存储在namenode的内存中 Hadoop存档文件或HAR文件是一个更高效的文件存档工具,它将文件存入HDFS块,在减少内存使用的同时,允许对文件进行透明地访问 Hadoop存档文件可以用作MapReduce的输入使用Hadoop存档工具 Hadoop存档是通过archive工具根据一组文件创建而来的,该存档工具运行一个MapReduce作业来并行处理所有的输入文件使用archive had…

《Hadoop权威指南》读书笔记1

<Hadoop权威指南>读书笔记 Day1 第一章 1.MapReduce适合一次写入.多次读取数据的应用,关系型数据库则更适合持续更新的数据集. 2.MapReduce是一种线性的可伸缩编程模型. 3.高性能计算HPC和网格计算比较适合用于计算密集型的作业,但如果几点需要访问的数据量更庞大,很多节点就会因为网络带宽的瓶颈问题不得不闲下等数据.(HPC和网格计算的数据存储与SAN中,数据存储比较集中,数据访问一般通过网络) 4.MapReduce尽量在计算节点上存储数据,以实现数据的本地化快速…

Hadoop权威指南:通过FileSystem API读取数据

Hadoop权威指南:通过FileSystem API读取数据 [TOC] 在Hadoop中,FileSystem是一个通用的文件系统API 获取FileSystem实例的几个静态方法 public static FileSystem get(Configureation conf) throws IOException public static FileSystem get(URI uri, Configureation conf) throws IOException public sta…

Hadoop权威指南:压缩

Hadoop权威指南:压缩 [TOC] 文件压缩的两个好处: 减少储存文件所需要的磁盘空间加速数据在网络和磁盘上的传输压缩格式总结: 压缩格式工具算法文件扩展名是否可切分 DEFLATE 无 DEFLATE .deflate 否 Gzip gzip DEFLATE .gz 否 bzip2 bzip2 bzip2 .bz2 是 LZO lzop LZO .lzo 否 LZ4 无 LZ4 .lz4 否 Snappy 无 Snappy .snapp 否上述表中的所有压缩工具都提供9个不同…

Hadoop权威指南:数据完整性

Hadoop权威指南:数据完整性 [TOC] 常用的错误检测码是CRC-32(循环冗余校验) HDFS的数据完整性 HDFS会对写入的所有数据计算校验和,并在读取数据时验证校验和 datanode负责在收到数据后储存该数据及其验证校验和客户端从datanode读取数据时也会验证校验和,与datanode中存储的校验和进行比较每个datanode均持久保存一个用于验证的校验和日志每个datanode也会在一个后台线程中运行一个DataBlockScanner,定期验证存储在这个datanod…

Hadoop权威指南:通过distcp并行复制

Hadoop权威指南:通过distcp并行复制 distcp是一个分布式复制程序,改程序可以从Hadoop文件系统间复制大量数据,也可以将大量的数据复制到Hadoop中 distcp的典型应用是在两个HDFS集群间传输数据 hadoop distcp hdfs://namenode1/foo hdfs://namemode2/bar 默认情况下, distcp会跳过目标路径下已经存在的文件,可以通过overwirte选项覆盖现有文件,也可以通过update选项选择有改动的文件 distcp是作为…

Hadoop权威指南:HDFS-数据流

Hadoop权威指南:HDFS-数据流 [TOC] 剖析文件读取客户端通过调用FileSystem对象的open()方法来打开希望读取的文件,对于HDFS来说, 这个对象是分布式文件系统的一个实例 DistributedFiltSystem通过使用RPC来调用namenode,以确定文件起始块的位置. 对于每一个块,namenode返回存有该块副本的datanode 的地址,这些datanode根据它们与客户端的距离来排序(根据集群的网络拓扑) DistributedFileSystem类返回…

Hadoop权威指南:HDFS-目录,查询文件系统,删除文件

Hadoop权威指南:HDFS-目录,查询文件系统,删除文件 [TOC] 目录 FileSystem实例提供了创建目录的方法 public boolean mkdirs(Path f) throws IOException 这个方法一次性创建所有必要但还没有的父目录通常不需要显式创建一个目录,因为调用create()方法写入文件时会自动创建所有父目录查询文件系统文件元数据:FileStatus FileStatus类封装了文件系统中文件和目录的元数据包括文件长度,块大小,副本,修改时间,所…