Hadoop权威指南:HDFS-目录,查询文件系统,删除文件

目录

FileSystem实例提供了创建目录的方法

public boolean mkdirs(Path f) throws IOException

这个方法一次性创建所有必要但还没有的父目录

通常不需要显式创建一个目录,因为调用create()方法写入文件时会自动创建所有父目录

查询文件系统

文件元数据:FileStatus

  • FileStatus类封装了文件系统中文件和目录的元数据包括文件长度,块大小,副本,修改时间,所有者,权限信息
  • FileSystemgetFileStatus方法用于获取文件或目录的FileStatus对象
  • 使用exists()方法检查文件或者目录是否存在

列出文件

使用FileSystemlistStatus()方法

  1. public FileStatus[] listStatus(Path f) throws IOException
  2. public FileStatus[] listStatus(Path f, PathFilter filter) throws IOException
  3. public FileStatus[] listStatus(Path[] files) throws IOException
  4. public FileStatus[] listStatus(Path[] files, PathFilter filter) throws IOException
  • 传入的Path参数可以是一个文件,也可以是一个目录
  • 允许使用PathFilter来限制匹配的文件和目录

显示Hadoop文件系统中一组路径的文件信息

代码
  1. import org.apache.hadoop.conf.Configuration;
  2. import org.apache.hadoop.fs.FileStatus;
  3. import org.apache.hadoop.fs.FileSystem;
  4. import org.apache.hadoop.fs.FileUtil;
  5. import org.apache.hadoop.fs.Path;
  6. import java.io.IOException;
  7. import java.net.URI;
  8. public class ListStatus {
  9. public static void main(String[] args) throws IOException {
  10. String uri = args[0];
  11. Configuration conf = new Configuration();
  12. FileSystem fs = FileSystem.get(URI.create(uri), conf);
  13. Path[] paths = new Path[args.length];
  14. for (int i=0; i < paths.length; ++i) {
  15. paths[i] = new Path(args[i]);
  16. }
  17. FileStatus[] status = fs.listStatus(paths);
  18. // stat2Path2方法将一个FileStatus对象数组转换为一个Path对象数组
  19. Path[] listedPaths = FileUtil.stat2Paths(status);
  20. for (Path p : listedPaths) {
  21. System.out.println(p);
  22. }
  23. }
  24. }
编译

javac ListStatus.java

运行

hadoop ListStatus hdfs://localhost:9000/user/hadoop/input hdfs://localhost:9000/user/hadoop/output

文件模式

Hadoop为执行通配[1]提供了两个FileSystem方法

  1. public FileStatus[] globStatus(Path pathPattern) throws IOException
  2. public FileStatus[] globStatus(Path pathPattern, PathFilter filter) throws IOException
  • globStatus()方法返回与其路径匹配于指定模式的所有文件的FileStatus对象数组,并按路径排序
  • PathFilter命令作为可选项可以进一步对匹配结果进行限制

Hadoop支持的通配符与Unix bash的相同

通配符 名称 匹配
* 星号 匹配0或多个字符
? 问号 匹配单一字符
[ab] 字符类 匹配{a,b}集合中的一个字符
[^ab] 非字符类 匹配非{a,b}集合中的一个字符
[a-b] 字符范围 匹配一个在a-b范围内的字符(包括a,b),a在字典顺序上要小于或等于b
[^a-b] 非字符范围 匹配一个不在a-b范围内的字符(包括a,b),a在字典顺序上要小于或等于b
{a,b} 或选择 匹配包含a或b中的一个的表达式
\c 转义字符 匹配元字符c

PathFilter对象

  • 通配符模式并不总能描述我们想要访问的文件集
  • FileSystem中的listStatus()globStatus() 方法提供了可选的 PathFilter 对象, 以编程方式控制通配符
  1. package org.apache.hadoop.fs;
  2. public interface PathFilter {
  3. boolean accept(Path path);
  4. }
  • pathFilterjava.io.FileFilter 一样,是 Path 对象, 而不是 File 对象

PathFilter用于排除匹配正则表达式的路径

代码
  1. import org.apache.hadoop.fs.Path;
  2. import org.apache.hadoop.fs.PathFilter;
  3. public class RegexExcludePathFilter implements PathFilter {
  4. private final String regex;
  5. public RegexExcludePathFilter(String regex) {
  6. this.regex = regex;
  7. }
  8. @Override
  9. public boolean accept(Path path) {
  10. return !path.toString().matches(regex);
  11. }
  12. }

删除数据

使用 FileSystemdelete() 方法可以永久性删除文件或目录

public boolean delete(Path f, boolean recursive) throws IOException

  • 如果f是一个文件或空目录, 那么 recursive 的值会被忽略
  • 只有在 recursive 值为 true 时,非空目录及其内容才会被删除, 否则会抛出IOException异常

  1. 在一个表达式中使用通配符来匹配多个文件是比较方便的,无需列举每个文件和目录来指定输入,该操作称为"通配" ↩︎

Hadoop权威指南:HDFS-目录,查询文件系统,删除文件的更多相关文章

  1. Hadoop权威指南:数据完整性

    Hadoop权威指南:数据完整性 [TOC] 常用的错误检测码是CRC-32(循环冗余校验) HDFS的数据完整性 HDFS会对写入的所有数据计算校验和,并在读取数据时验证校验和 datanode负责 ...

  2. Hadoop权威指南:压缩

    Hadoop权威指南:压缩 [TOC] 文件压缩的两个好处: 减少储存文件所需要的磁盘空间 加速数据在网络和磁盘上的传输 压缩格式总结: 压缩格式 工具 算法 文件扩展名 是否可切分 DEFLATE ...

  3. Hadoop权威指南(中文版-带目录索引)pdf电子书

      Hadoop权威指南(中文版-带目录索引)pdf电子书下载地址:百度网盘点击下载:链接:https://pan.baidu.com/s/1E-8eLaaqTCkKESNPDqq0jw 提取码:g6 ...

  4. Hadoop权威指南:HDFS-Hadoop存档

    Hadoop权威指南:HDFS-Hadoop存档 [TOC] 每个文件按块方式存储, 每个块的元数据存储在namenode的内存中 Hadoop存档文件或HAR文件是一个更高效的文件存档工具,它将文件 ...

  5. Hadoop权威指南:HDFS-写入数据

    Hadoop权威指南:HDFS-写入数据 FileSystem类有一系列的新建文件的方法.最简单的方法是给准备建的文件指定一个Path对象,然后返回一个用于写入数据的输出流: public FSDat ...

  6. Hadoop权威指南学习笔记三

    HDFS简单介绍 声明:本文是本人基于Hadoop权威指南学习的一些个人理解和笔记,仅供学习參考.有什么不到之处还望指出,一起学习一起进步. 转载请注明:http://blog.csdn.net/my ...

  7. Hadoop权威指南:通过FileSystem API读取数据

    Hadoop权威指南:通过FileSystem API读取数据 [TOC] 在Hadoop中,FileSystem是一个通用的文件系统API 获取FileSystem实例的几个静态方法 public ...

  8. Hadoop权威指南:从Hadoop URL读取数据

    [TOC] Hadoop权威指南:从Hadoop URL读取数据 使用java.net.URL对象从Hadoop文件系统读取文件 实现类似linux中cat命令的程序 文件名 HDFSCat.java ...

  9. Hadoop权威指南:HDFS-数据流

    Hadoop权威指南:HDFS-数据流 [TOC] 剖析文件读取 客户端通过调用FileSystem对象的open()方法来打开希望读取的文件,对于HDFS来说, 这个对象是分布式文件系统的一个实例 ...

随机推荐

  1. IIS7无后缀URL部署问题 MVC4 MVC URL映射 windows server 2008

    前言和中间一段都是我找到问题的过程和思维方法.没兴趣的可以直接跳过看后面的问题和解决. 前言: 问题发生在站点完成后,部署到服务器上.以为这个是最轻松的工作.结果悲剧了.windows server ...

  2. jsp显示计算数值, 四舍五入

    <script>document.write(Math.round(<%= rs_MFM.getInt("PVRCompl") %>/<%= rs_M ...

  3. Spring整合Hibernate--声明式事务管理

    Spring指定datasource 1. 新建jdbc.properties文件: jdbc.driverClassName=com.mysql.jdbc.Driver jdbc.url=jdbc: ...

  4. static DEVICE_ATTR(val, S_IRUGO | S_IWUSR, hello_val_show, hello_val_store); 的作用

    在 老罗的android例程里面有 static DEVICE_ATTR(val, S_IRUGO | S_IWUSR, hello_val_show, hello_val_store); /*读取设 ...

  5. javascript 中的this

    he scope of all functions is window. (The reason why is you are invoking f as a function(类,全局的类) and ...

  6. 怎样让一个div高度自适应浏览器高度

    原文:http://www.jb51.net/web/79171.html 原文:http://zhidao.baidu.com/link?url=oId1sFRhiBnV37-RmRE6WQNHxi ...

  7. SQL truncate 、delete与drop区别

    SQL truncate .delete与drop区别 相同点: 1.truncate和不带where子句的delete.以及drop都会删除表内的数据. 2.drop.truncate都是DDL语句 ...

  8. SpringMVC轻松学习-注解的使用(三)

    根据上一讲的例子,我们下面就注解的使用进行详细说明. 我们采用sprng MVC开发项目时,通常都会采用注解的方式,这样可以大大提高我们的开发效率.实现零配置.下面我们从零开始重新做一个spring ...

  9. phpcms v9 在当前栏目下获取父栏目与当前栏目的名称与连接

    <a href="#" target="_blank">首页</a> > <a href="{$CATEGORYS ...

  10. pho

    PDO(PHP Data Object) 是PHP 5新出来的东西,在PHP 6都要出来的时候,PHP 6只默认使用PDO来处理数据库,将把所有的数据库扩展移到了PECL,那么默认就是没有了我们喜爱的 ...