掌握HDFS的Java API接口访问

HDFS设计的主要目的是对海量数据进行存储，也就是说在其上能够存储很大量文件（可以存储TB级的文件）。HDFS将这些文件分割之后，存储在不同的DataNode上， HDFS 提供了两种访问接口：Shell接口和Java API 接口，对HDFS里面的文件进行操作，具体每个Block放在哪台DataNode上面，对于开发者来说是透明的。

1、获取文件系统

 1 /**

 2  * 获取文件系统

 3  *

 4  * @return FileSystem

 5  */

 6 public static FileSystem getFileSystem() {

 7     //读取配置文件

 8     Configuration conf = new Configuration();

 9     // 文件系统

10     FileSystem fs = null;

11

12     String hdfsUri = HDFSUri;

13     if(StringUtils.isBlank(hdfsUri)){

14         // 返回默认文件系统  如果在 Hadoop集群下运行，使用此种方法可直接获取默认文件系统

15         try {

16             fs = FileSystem.get(conf);

17         } catch (IOException e) {

18             logger.error("", e);

19         }

20     }else{

21         // 返回指定的文件系统,如果在本地测试，需要使用此种方法获取文件系统

22         try {

23             URI uri = new URI(hdfsUri.trim());

24             fs = FileSystem.get(uri,conf);

25         } catch (URISyntaxException | IOException e) {

26             logger.error("", e);

27         }

28     }

29

30     return fs;

31 }

2、创建文件目录

 1 /**

 2  * 创建文件目录

 3  *

 4  * @param path

 5  */

 6 public static void mkdir(String path) {

 7     try {

 8         // 获取文件系统

 9         FileSystem fs = getFileSystem();

10

11         String hdfsUri = HDFSUri;

12         if(StringUtils.isNotBlank(hdfsUri)){

13             path = hdfsUri + path;

14         }

15

16         // 创建目录

17         fs.mkdirs(new Path(path));

18

19         //释放资源

20         fs.close();

21     } catch (IllegalArgumentException | IOException e) {

22         logger.error("", e);

23     }

24 }

3、删除文件或者文件目录

 1 /**

 2  * 删除文件或者文件目录

 3  *

 4  * @param path

 5  */

 6 public static void rmdir(String path) {

 7     try {

 8         // 返回FileSystem对象

 9         FileSystem fs = getFileSystem();

10

11         String hdfsUri = HDFSUri;

12         if(StringUtils.isNotBlank(hdfsUri)){

13             path = hdfsUri + path;

14         }

15

16         // 删除文件或者文件目录  delete(Path f) 此方法已经弃用

17         fs.delete(new Path(path),true);

18

19         // 释放资源

20         fs.close();

21     } catch (IllegalArgumentException | IOException e) {

22         logger.error("", e);

23     }

24 }

3、根据filter获取目录下的文件

 1 /**

 2  * 根据filter获取目录下的文件

 3  *

 4  * @param path

 5  * @param pathFilter

 6  * @return String[]

 7  */

 8 public static String[] ListFile(String path,PathFilter pathFilter) {

 9     String[] files = new String[0];

10

11     try {

12         // 返回FileSystem对象

13         FileSystem fs = getFileSystem();

14

15         String hdfsUri = HDFSUri;

16         if(StringUtils.isNotBlank(hdfsUri)){

17             path = hdfsUri + path;

18         }

19

20         FileStatus[] status;

21         if(pathFilter != null){

22             // 根据filter列出目录内容

23             status = fs.listStatus(new Path(path),pathFilter);

24         }else{

25             // 列出目录内容

26             status = fs.listStatus(new Path(path));

27         }

28

29         // 获取目录下的所有文件路径

30         Path[] listedPaths = FileUtil.stat2Paths(status);

31         // 转换String[]

32         if (listedPaths != null && listedPaths.length > 0){

33             files = new String[listedPaths.length];

34             for (int i = 0; i < files.length; i++){

35                 files[i] = listedPaths[i].toString();

36             }

37         }

38         // 释放资源

39         fs.close();

40     } catch (IllegalArgumentException | IOException e) {

41         logger.error("", e);

42     }

43

44     return files;

45 }

4、文件上传至 HDFS

 1 /**

 2  * 文件上传至 HDFS

 3  *

 4  * @param delSrc

 5  * @param overwrite

 6  * @param srcFile

 7  * @param destPath

 8  */

 9 public static void copyFileToHDFS(boolean delSrc, boolean overwrite,String srcFile,String destPath) {

10     // 源文件路径是Linux下的路径，如果在 windows 下测试，需要改写为Windows下的路径，比如D://hadoop/djt/weibo.txt

11     Path srcPath = new Path(srcFile);

12

13     // 目的路径

14     String hdfsUri = HDFSUri;

15     if(StringUtils.isNotBlank(hdfsUri)){

16         destPath = hdfsUri + destPath;

17     }

18     Path dstPath = new Path(destPath);

19

20     // 实现文件上传

21     try {

22         // 获取FileSystem对象

23         FileSystem fs = getFileSystem();

24         fs.copyFromLocalFile(srcPath, dstPath);

25         fs.copyFromLocalFile(delSrc,overwrite,srcPath, dstPath);

26         //释放资源

27         fs.close();

28     } catch (IOException e) {

29         logger.error("", e);

30     }

31 }

5、从 HDFS 下载文件

 1 /**

 2  * 从 HDFS 下载文件

 3  *

 4  * @param srcFile

 5  * @param destPath

 6  */

 7 public static void getFile(String srcFile,String destPath) {

 8     // 源文件路径

 9     String hdfsUri = HDFSUri;

10     if(StringUtils.isNotBlank(hdfsUri)){

11         srcFile = hdfsUri + srcFile;

12     }

13     Path srcPath = new Path(srcFile);

14

15     // 目的路径是Linux下的路径，如果在 windows 下测试，需要改写为Windows下的路径，比如D://hadoop/djt/

16     Path dstPath = new Path(destPath);

17

18     try {

19         // 获取FileSystem对象

20         FileSystem fs = getFileSystem();

21         // 下载hdfs上的文件

22         fs.copyToLocalFile(srcPath, dstPath);

23         // 释放资源

24         fs.close();

25     } catch (IOException e) {

26         logger.error("", e);

27     }

28 }

6、获取 HDFS 集群节点信息

 1 /**

 2  * 获取 HDFS 集群节点信息

 3  *

 4  * @return DatanodeInfo[]

 5  */

 6 public static DatanodeInfo[] getHDFSNodes() {

 7     // 获取所有节点

 8     DatanodeInfo[] dataNodeStats = new DatanodeInfo[0];

 9

10     try {

11         // 返回FileSystem对象

12         FileSystem fs = getFileSystem();

13

14         // 获取分布式文件系统

15         DistributedFileSystem hdfs = (DistributedFileSystem)fs;

16

17         dataNodeStats = hdfs.getDataNodeStats();

18     } catch (IOException e) {

19         logger.error("", e);

20     }

21     return dataNodeStats;

22 }

7、查找某个文件在 HDFS集群的位置

 1 /**

 2  * 查找某个文件在 HDFS集群的位置

 3  *

 4  * @param filePath

 5  * @return BlockLocation[]

 6  */

 7 public static BlockLocation[] getFileBlockLocations(String filePath) {

 8     // 文件路径

 9     String hdfsUri = HDFSUri;

10     if(StringUtils.isNotBlank(hdfsUri)){

11         filePath = hdfsUri + filePath;

12     }

13     Path path = new Path(filePath);

14

15     // 文件块位置列表

16     BlockLocation[] blkLocations = new BlockLocation[0];

17     try {

18         // 返回FileSystem对象

19         FileSystem fs = getFileSystem();

20         // 获取文件目录

21         FileStatus filestatus = fs.getFileStatus(path);

22         //获取文件块位置列表

23         blkLocations = fs.getFileBlockLocations(filestatus, 0, filestatus.getLen());

24     } catch (IOException e) {

25         logger.error("", e);

26     }

27     return blkLocations;

28 }

8、文件重命名

 1 /**

 2  * 文件重命名

 3  *

 4  * @param srcPath

 5  * @param dstPath

 6  */

 7 public boolean rename(String srcPath, String dstPath){

 8     boolean flag = false;

 9     try    {

10         // 返回FileSystem对象

11         FileSystem fs = getFileSystem();

12

13         String hdfsUri = HDFSUri;

14         if(StringUtils.isNotBlank(hdfsUri)){

15             srcPath = hdfsUri + srcPath;

16             dstPath = hdfsUri + dstPath;

17         }

18

19         flag = fs.rename(new Path(srcPath), new Path(dstPath));

20     } catch (IOException e) {

21         logger.error("{} rename to {} error.", srcPath, dstPath);

22     }

23

24     return flag;

25 }

9、判断目录是否存在

 1 /**

 2  * 判断目录是否存在

 3  *

 4  * @param srcPath

 5  * @param dstPath

 6  */

 7 public boolean existDir(String filePath, boolean create){

 8     boolean flag = false;

 9

10     if (StringUtils.isEmpty(filePath)){

11         return flag;

12     }

13

14     try{

15         Path path = new Path(filePath);

16         // FileSystem对象

17         FileSystem fs = getFileSystem();

18

19         if (create){

20             if (!fs.exists(path)){

21                 fs.mkdirs(path);

22             }

23         }

24

25         if (fs.isDirectory(path)){

26             flag = true;

27         }

28     }catch (Exception e){

29         logger.error("", e);

30     }

31

32     return flag;

33 }

10 查看HDFS文件的最后修改时间

public void testgetModifyTime() throws Exception {
Configuration conf = new Configuration();
FileSystem hdfs = FileSystem.get(conf);
Path dst = new Path(hdfsPath);
FileStatus files[] = hdfs.listStatus(dst);
for (FileStatus file : files) {
System.out.println(file.getPath() + "\t"
+ file.getModificationTime());
System.out.println(file.getPath() + "\t"
+ new Date(file.getModificationTime()));
}

// 查看HDFS文件是否存在
public void testExists() throws Exception {
Configuration conf = new Configuration();
FileSystem hdfs = FileSystem.get(conf);
Path dst = new Path(hdfsPath + "file01.txt");
boolean ok = hdfs.exists(dst);
System.out.println(ok ? "文件存在" : "文件不存在");
}

// 获取HDFS集群上所有节点名称
public void testGetHostName() throws Exception {
Configuration conf = new Configuration();
DistributedFileSystem hdfs = (DistributedFileSystem) FileSystem
.get(conf);
DatanodeInfo[] dataNodeStats = hdfs.getDataNodeStats();
for (DatanodeInfo dataNode : dataNodeStats) {
System.out.println(dataNode.getHostName() + "\t"
+ dataNode.getName());
}
}

掌握HDFS的Java API接口访问的更多相关文章

熟练掌握HDFS的Java API接口访问
HDFS设计的主要目的是对海量数据进行存储,也就是说在其上能够存储很大量文件(可以存储TB级的文件).HDFS将这些文件分割之后,存储在不同的DataNode上, HDFS 提供了两种访问接口:She ...
Hadoop之HDFS（三）HDFS的JAVA API操作
HDFS的JAVA API操作 HDFS 在生产应用中主要是客户端的开发,其核心步骤是从 HDFS 提供的 api中构造一个 HDFS 的访问客户端对象,然后通过该客户端对象操作(增删改查)HDFS ...
Hadoop（五）：HDFS的JAVA API基本操作
HDFS的JAVA API操作 HDFS在生产应用中主要是客户端的开发,其核心步骤是从HDFS提供的api中构造一个HDFS的访问客户端对象,然后通过该客户端对象操作(增删改查)HDFS上的文件. 主 ...
HDFS中JAVA API的使用
HDFS中JAVA API的使用 HDFS是一个分布式文件系统,既然是文件系统,就可以对其文件进行操作,比如说新建文件.删除文件.读取文件内容等操作.下面记录一下使用JAVA API对HDFS中的 ...
HDFS的Java API
HDFS Java API 可以用于任何Java程序与HDFS交互,该API使我们能够从其他Java程序中利用到存储在HDFS中的数据,也能够使用其他非Hadoop的计算框架处理该数据为了以编程方式 ...
API接口访问频次限制 / 网站恶意爬虫限制 / 网站恶意访问限制方案
API接口访问频次限制 / 网站恶意爬虫限制 / 网站恶意访问限制方案采用多级拦截,后置拦截的方式体系化解决 1 分层拦截 1.1 第一层商业web应用防火墙(WAF) 直接用商业服务传统的F ...
将JAVA API接口改写成 Python
AsinSeedApi 不写注释的程序员-加密将JAVA API接口改写成 Python JAVA import com.alibaba.fastjson.JSON; import com.ali ...
Postman如何通过xmysql工具的Restful API 接口访问MySQL
GreatSQL社区原创内容未经授权不得随意使用,转载请联系小编并注明来源. 导语有时候用 Postman 接口测试需要获取MySQL的查询结果做接口输出的校验,这里介绍下 Postman 通过 R ...
Hadoop HDFS Basic JAVA API
org.apache.hadoop.fs.FileSystem 是HDFS的文件系统抽象,在分布式系统中管理HDFS文件和目录.文件内容存储在由多个相同大小的块(如64M)构成的datanode节 ...

随机推荐

nuget.org 无法加载源 https://api.nuget.org/v3/index.json 的服务索引不定时抽风
今天添加新项目想添加几个工具包,打开NuGet就这样了发生错误如下: [nuget.org] 无法加载源 https://api.nuget.org/v3/index.json 的服务索引.响应状 ...
hd acm1425
给你n个整数,请按从大到小的顺序输出其中前m大的数. 先看代码: #include<stdio.h>#include<string.h>#define MAX 1100000i ...
Android系统Recovery工作原理之使用update.zip升级过程分析（三）【转】
本文转载自:http://blog.csdn.net/mu0206mu/article/details/7464699 以下的篇幅开始分析我们在上两个篇幅中生成的update.zip包在具体更新中所经 ...
如何处理异常? catch Exception OR catch Throwable
在Java中,当你需要统一处理异常的时候,你是会选择catch (Exception),还是直接catch (Throwable)? Java的异常体系 Throwable: Java中所有异常和错误 ...
C# 多服务器上传示例
图片服务器带宽越来越不够用,还有当一台服务器的机房出问题的时候,不影响整个web,以及考虑网通电信访问服务器的速度,所以考虑使用多台图片服务器这个时候要求图片服务器内容是同步的 ...
关于数组的初始化memset函数
关于数组的初始化memset函数其实memset复制时按bit8个8个的赋值,有兴趣的可以自己百度.
java:Maven构建项目速度太慢的解决办法，以及报错Retrieving archetypes:' has encountered a problem
如果报错信息如下: Retrieving archetypes:' has encountered a problemAn internal error occurred during:"R ...
node.js+express+jade系列六：图片的上传
安装npm install formidable 先把文件上传到临时文件夹,再通过fs重命名移动到指定的目录即可 fs.rename即重命名,但是fs.rename不能夸磁盘移动文件,所以我们需要指定 ...
UVA 291 The House Of Santa Claus（DFS算法）
题意:从节点1出发,一笔画出圣诞老人的家(所谓一笔画,就是遍访所有边且每条边仅访问一次). 思路:深度优先搜索(DFS算法) #include<iostream> #include&l ...
CCSpriteBatchNode CCSpriteFrameCache
3.27 精灵集合类(CCSpriteBatchNode) //以纹理来创建一个精灵集合对象 static CCSpriteBatchNode* createWithTexture(CCTexture ...

掌握HDFS的Java API接口访问

掌握HDFS的Java API接口访问的更多相关文章

随机推荐

热门专题