Hadoop基础-HDFS的API常见操作

　　　　　　　　　　　　　　　　　　　　Hadoop基础-HDFS的API常见操作

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　作者：尹正杰

　　本文主要是记录一写我在学习HDFS时的一些琐碎的学习笔记，方便自己以后查看。在调用API的时候，可能会需要maven依赖，添加依赖的包如下：

 <?xml version="1.0" encoding="UTF-8"?>

 <project xmlns="http://maven.apache.org/POM/4.0.0"

          xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"

          xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">

     <parent>

         <artifactId>HADOOP</artifactId>

         <groupId>yinzhengjie.org.cn</groupId>

         <version>1.0-SNAPSHOT</version>

     </parent>

     <modelVersion>4.0.0</modelVersion>

     <artifactId>HDFS</artifactId>

     <dependencies>

         <dependency>

             <groupId>org.apache.hadoop</groupId>

             <artifactId>hadoop-common</artifactId>

             <version>2.6.0</version>

         </dependency>

         <dependency>

             <groupId>org.apache.hadoop</groupId>

             <artifactId>hadoop-client</artifactId>

             <version>2.6.0</version>

         </dependency>

         <dependency>

             <groupId>junit</groupId>

             <artifactId>junit</artifactId>

             <version>4.11</version>

             <scope>test</scope>

         </dependency>

     </dependencies>

 </project>

一.HDFS获取文件系统

/*

@author :yinzhengjie

Blog:http://www.cnblogs.com/yinzhengjie/tag/Hadoop%E7%94%9F%E6%80%81%E5%9C%88/

EMAIL:y1053419035@qq.com

*/

package hdfs.yinzhengjie.org.cn;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.FileSystem;

import java.io.IOException;

public class HdfsClient {

    public static void main(String[] args) throws IOException {

        initHDFS();

    }

    //获取文件系统

    public static  void initHDFS() throws IOException{

        //创建Configuration对象

        Configuration conf = new Configuration();

//获取文件系统

        FileSystem fs = FileSystem.get(conf);

        //打印文件系统到控制台

        System.out.println(fs);

    }

}

二.HDFS文件上传

/*

@author :yinzhengjie

Blog:http://www.cnblogs.com/yinzhengjie/tag/Hadoop%E7%94%9F%E6%80%81%E5%9C%88/

EMAIL:y1053419035@qq.com

*/

package hdfs.yinzhengjie.org.cn;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.Path;

import java.net.URI;

public class HdfsClient {

    public static void main(String[] args) throws Exception {

        putFileToHDFSinitHDFS();

    }

    //文件上传

    public static  void putFileToHDFSinitHDFS() throws Exception {

        //配合Hadoop的环境变量，如果没有配置可能会抛异常：“ERROR util.Shell: Failed to locate the winutils binary in the hadoop binary path”，还有一件事就是你的HADOOP_HOME的bin目录下必须得有winutils.exe

        System.setProperty("hadoop.home.dir", "D:\\yinzhengjie\\softwares\\hadoop-2.7.3");

        //创建Configuration对象

        Configuration conf = new Configuration();

        //在代码中配置副本数,优先级最高，其次是配置文件的优先级，最后才是hdfs集群默认的副本数

        conf.set("dfs.replication","2");

        //获取文件系统，注意传入的三个参数对应的是hdfs的链接地址（需要将集群的客户端配置文件放在RESOURCES目录下！），配置对象，以及提交权限的用户名称。

        FileSystem fs = FileSystem.get(new URI("hdfs://yinzhengjie-hdfs-ha"),conf,"hdfs");

        /**

         * 当然，传入hdfs的url也可以指定主机名,当然你得在操作系统的hosts文件中指定对应的IP地址信息！

         *    FileSystem fs = FileSystem.get(new URI("hdfs://node105.yinzhengjie.org.cn:8020"),conf,"hdfs");

         */

        //上传文件到hdfs路径中

        fs.copyFromLocalFile(new Path("D:\\yinzhengjie\\data\\yinzhengjie.txt"),new Path("/yinzhengjie/yinzhengjie.blog"));

    }

}

三.HDFS文件下载

/*

@author :yinzhengjie

Blog:http://www.cnblogs.com/yinzhengjie/tag/Hadoop%E7%94%9F%E6%80%81%E5%9C%88/

EMAIL:y1053419035@qq.com

*/

package hdfs.yinzhengjie.org.cn;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.Path;

import java.net.URI;

public class HdfsClient {

    public static void main(String[] args) throws Exception {

        getFileFromHDFS();

    }

    //下载文件

    public static void getFileFromHDFS() throws Exception {

        //配合Hadoop的环境变量，如果没有配置可能会抛异常：“ERROR util.Shell: Failed to locate the winutils binary in the hadoop binary path”，还有一件事就是你的HADOOP_HOME的bin目录下必须得有winutils.exe

        System.setProperty("hadoop.home.dir", "D:\\yinzhengjie\\softwares\\hadoop-2.7.3");

        //创建Configuration对象

        Configuration conf = new Configuration();

        //获取文件系统，需要传入hdfs的链接地址，conf对象，以及操作的用户名

        FileSystem fs = FileSystem.get(new URI("hdfs://node105.yinzhengjie.org.cn:8020"),conf,"hdfs");

        /**

         * 指定下载操作，下面是对该copyToLocalFile的参数说明

         *      第一个参数：boolean delSrc    -------> 指是否将源文件删除

         *      第二个参数：Path src     -------> 指定下载的文件路径

         *      第三个参数：Path dst     -------> 指定文件下载到的路径

         *      第四个参数： boolean useRawLocalFileSystem -------> 指是否开启文件校验

         */

        fs.copyToLocalFile(false,new Path("/yinzhengjie/yinzhengjie.blog"),new Path("D:\\yinzhengjie\\data"),true);

        //关闭链接，释放资源

        fs.close();

    }

}

四.HDFS目录创建

/*

@author :yinzhengjie

Blog:http://www.cnblogs.com/yinzhengjie/tag/Hadoop%E7%94%9F%E6%80%81%E5%9C%88/

EMAIL:y1053419035@qq.com

*/

package hdfs.yinzhengjie.org.cn;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.Path;

import java.net.URI;

public class HdfsClient {

    public static void main(String[] args) throws Exception {

        mkdirAtHDFS();

    }

    //在hdfs中创建文件夹

    public static void mkdirAtHDFS() throws Exception{

        //配合Hadoop的环境变量，如果没有配置可能会抛异常：“ERROR util.Shell: Failed to locate the winutils binary in the hadoop binary path”，还有一件事就是你的HADOOP_HOME的bin目录下必须得有winutils.exe

         System.setProperty("hadoop.home.dir", "D:\\yinzhengjie\\softwares\\hadoop-2.7.3");

         //创建Configuration对象

         Configuration conf = new Configuration();

         //获取文件系统，需要传入hdfs的链接地址，conf对象，以及操作的用户名

         FileSystem fs = FileSystem.get(new URI("hdfs://node105.yinzhengjie.org.cn:8020"),conf,"hdfs");

         //创建目录

        fs.mkdirs(new Path("/yinzhengjie/2018/11/04"));

        //释放资源

        fs.close();

    }

}

五.HDFS文件夹删除

/*

@author :yinzhengjie

Blog:http://www.cnblogs.com/yinzhengjie/tag/Hadoop%E7%94%9F%E6%80%81%E5%9C%88/

EMAIL:y1053419035@qq.com

*/

package hdfs.yinzhengjie.org.cn;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.Path;

import java.net.URI;

public class HdfsClient {

    public static void main(String[] args) throws Exception {

        deleteAtHDFS();

    }

    //删除文件或者文件夹

    public static void deleteAtHDFS() throws Exception{

        //配合Hadoop的环境变量，如果没有配置可能会抛异常：“ERROR util.Shell: Failed to locate the winutils binary in the hadoop binary path”，还有一件事就是你的HADOOP_HOME的bin目录下必须得有winutils.exe

        System.setProperty("hadoop.home.dir", "D:\\yinzhengjie\\softwares\\hadoop-2.7.3");

        //创建Configuration对象

        Configuration conf = new Configuration();

        //获取文件系统，需要传入hdfs的链接地址，conf对象，以及操作的用户名

         FileSystem fs = FileSystem.get(new URI("hdfs://node105.yinzhengjie.org.cn:8020"),conf,"hdfs");

        //执行删除操作，第一个参数指定的是删除路径，第二个参数表示是否递归删除。要注意的是，如果是目录的必须设置为true，否则会抛异常！

        fs.delete(new Path("/yinzhengjie/2018"),true);

        //关闭资源

        fs.close();

    }

}

六.HDFS文件名更改

/*

@author :yinzhengjie

Blog:http://www.cnblogs.com/yinzhengjie/tag/Hadoop%E7%94%9F%E6%80%81%E5%9C%88/

EMAIL:y1053419035@qq.com

*/

package hdfs.yinzhengjie.org.cn;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.Path;

import java.net.URI;

public class HdfsClient {

    public static void main(String[] args) throws Exception {

        renameAtHDFS();

    }

    //给文件或者目录进行重命名操作

    public static void renameAtHDFS() throws Exception{

        //配合Hadoop的环境变量，如果没有配置可能会抛异常：“ERROR util.Shell: Failed to locate the winutils binary in the hadoop binary path”，还有一件事就是你的HADOOP_HOME的bin目录下必须得有winutils.exe

        System.setProperty("hadoop.home.dir", "D:\\yinzhengjie\\softwares\\hadoop-2.7.3");

        //创建Configuration对象

        Configuration conf = new Configuration();

        //获取文件系统，需要传入hdfs的链接地址，conf对象，以及操作的用户名

         FileSystem fs = FileSystem.get(new URI("hdfs://node105.yinzhengjie.org.cn:8020"),conf,"hdfs");

        //修改文件名称

        fs.rename(new Path("/yinzhengjie/yinzhengjie.blog2"),new Path("/yinzhengjie/yinzhengjie.blog-2018-11-04"));

        //关闭资源

        fs.close();

    }

}

七.HDFS文件详情查看

/*

@author :yinzhengjie

Blog:http://www.cnblogs.com/yinzhengjie/tag/Hadoop%E7%94%9F%E6%80%81%E5%9C%88/

EMAIL:y1053419035@qq.com

*/

package hdfs.yinzhengjie.org.cn;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.*;

import java.net.URI;

public class HdfsClient {

    public static void main(String[] args) throws Exception {

        readListFiles();

    }

    public static void readListFiles() throws Exception {

        //配合Hadoop的环境变量，如果没有配置可能会抛异常：“ERROR util.Shell: Failed to locate the winutils binary in the hadoop binary path”，还有一件事就是你的HADOOP_HOME的bin目录下必须得有winutils.exe

       System.setProperty("hadoop.home.dir", "D:\\yinzhengjie\\softwares\\hadoop-2.7.3");

       //创建配置信息对象

       Configuration conf = new Configuration();

         //获取文件系统，需要传入hdfs的链接地址，conf对象，以及操作的用户名

        FileSystem fs = FileSystem.get(new URI("hdfs://node105.yinzhengjie.org.cn:8020"),conf,"hdfs");

        //获取文件详情（注意：返回的是迭代器，而不是List之类的容器。），第一个参数指定的想要在hdfs获取的路径，第二个参数是否递归获取，改参数一般针对目录有效！

        RemoteIterator<LocatedFileStatus> listFiles = fs.listFiles(new Path("/"), true);

        while (listFiles.hasNext()) {

            //调用迭代器listFiles的next()方法获取文件详细信息

            LocatedFileStatus fileStatus = listFiles.next();

            //输出文件名称

            System.out.println(fileStatus.getPath().getName());

            //输出块大小的信息

            System.out.println(fileStatus.getBlockSize());

            //输出权限信息

            System.out.println(fileStatus.getPermission());

            //输出长度信息

            System.out.println(fileStatus.getLen());

            //输出组的信息

            System.out.println(fileStatus.getGroup());

            //获取到块的位置信息

            BlockLocation[] blockLocations = fileStatus.getBlockLocations();

            for (BlockLocation bl : blockLocations) {

                System.out.println("block-offset:" + bl.getOffset());

                //获取该快在哪个节点上

                String[] hosts = bl.getHosts();

                for (String host : hosts) {

                    //打印获取到的主机信息

                    System.out.println(host);

                }

            }

            System.out.println("<--------------尹正杰的分割线------------->");

        }

    }

}

8>.HDFS文件和文件夹

/*

@author :yinzhengjie

Blog:http://www.cnblogs.com/yinzhengjie/tag/Hadoop%E7%94%9F%E6%80%81%E5%9C%88/

EMAIL:y1053419035@qq.com

*/

package hdfs.yinzhengjie.org.cn;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.*;

import java.net.URI;

public class HdfsClient {

    public static void main(String[] args) throws Exception {

        findAtFiles();

    }

    public static void findAtFiles() throws Exception {

        //配合Hadoop的环境变量，如果没有配置可能会抛异常：“ERROR util.Shell: Failed to locate the winutils binary in the hadoop binary path”，还有一件事就是你的HADOOP_HOME的bin目录下必须得有winutils.exe

       System.setProperty("hadoop.home.dir", "D:\\yinzhengjie\\softwares\\hadoop-2.7.3");

       //创建配置信息对象

       Configuration conf = new Configuration();

         //获取文件系统，需要传入hdfs的链接地址，conf对象，以及操作的用户名

        FileSystem fs = FileSystem.get(new URI("hdfs://node105.yinzhengjie.org.cn:8020"),conf,"hdfs");

        //获取查询路径下的文件状态信息

        FileStatus[] listStatus = fs.listStatus(new Path("/"));

        //便利所有的文件状态

        for (FileStatus status : listStatus) {

            //判断是文件还是文件夹

            if (status.isFile()){

                //如果是文件就在打印的时候加上指定的字符串前添加"file ------->"

                System.out.println("file ------->" + status.getPath().getName());

            }else {

                //如果是文件夹就在打印的时候加上特定的字符串前添加"directories ------->"

                System.out.println("directories ------->"+ status.getPath().getName());

            }

        }

    }

}

Hadoop基础-HDFS的API常见操作的更多相关文章

Hadoop基础-HDFS的API实现增删改查
Hadoop基础-HDFS的API实现增删改查作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 本篇博客开发IDE使用的是Idea,如果没有安装Idea软件的可以去下载安装,如何安装 ...
Hadoop生态圈-Hbase的API常见操作
Hadoop生态圈-Hbase的API常见操作作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任.
Hadoop基础-HDFS分布式文件系统的存储
Hadoop基础-HDFS分布式文件系统的存储作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.HDFS数据块 1>.磁盘中的数据块每个磁盘都有默认的数据块大小,这个磁盘 ...
Hadoop基础-HDFS集群中大数据开发常用的命令总结
Hadoop基础-HDFS集群中大数据开发常用的命令总结作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 本盘博客仅仅列出了我们在实际生成环境中常用的hdfs命令,如果想要了解更多, ...
Hadoop基础-HDFS安全管家之Kerberos实战篇
Hadoop基础-HDFS安全管家之Kerberos实战篇作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 我们都知道hadoop有很多不同的发行版,比如:Apache Hadoop ...
Hadoop基础-Hdfs各个组件的运行原理介绍
Hadoop基础-Hdfs各个组件的运行原理介绍作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.NameNode工作原理(默认端口号:50070) 1>.什么是NameN ...
Hadoop基础-HDFS的读取与写入过程
Hadoop基础-HDFS的读取与写入过程作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 为了了解客户端及与之交互的HDFS,NameNode和DataNode之间的数据流是什么样 ...
Hadoop基础-HDFS的读取与写入过程剖析
Hadoop基础-HDFS的读取与写入过程剖析作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 本篇博客会简要介绍hadoop的写入过程,并不会设计到源码,我会用图和文字来描述hdf ...
Hadoop基础-HDFS数据清理过程之校验过程代码分析
Hadoop基础-HDFS数据清理过程之校验过程代码分析作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 想称为一名高级大数据开发工程师,不但需要了解hadoop内部的运行机制,还需 ...

随机推荐

Opentsdb分布式安装
Opentsdb分布式安装 --李琦 1．下载文件上传到虚拟机 -rw-r--r--. 1 root root 76793860 Apr 27 10:56 opentsdb-2.2.0.tar ...
myeclipse快捷方式汇总
选择你要注释的那一行或多行代码,按Ctrl+/即可,取消注释也是选中之后按Ctrl+/即可. 如果你想使用的快捷键的注释是的话,那么你的快捷键是ctrl+shift+/我以前都是手动注释的,直接打// ...
第三个spring冲刺第1天
在第二阶段,我们的要实现的基本功能都已经基本是实现了,现在在第三阶段,我们会完善算法的改进.容错问题的兼容还有附加的其他功能,例如计时等
Vim列模式（块选择）输入
https://www.ibm.com/developerworks/cn/linux/l-cn-vimcolumn/ https://www.zhihu.com/question/19968224 ...
Bootstrap 引入文件顺序及IE兼容性js
<!DOCTYPE html><html lang="zh-cn"><head> <meta charset="utf-8&qu ...
3.27PSP及体会
首先,我还是第一次了解老师这种先喂鸡汤,再打鸡血的行为,大老板的出现让我有些措手不及,我的天啊! 话说这周alpha版本实现,真的是好费脑筋,因为预定是4~6周的项目一周弄完,而且还是在拥有几个 ...
Jenkins之常用变量
BUILD_NUMBER 目前的编号,如“153” JOB_NAME 此构建项目的名称,如“foo”或“foo / bar”. JOB_BASE_NAME 此建立项目的名称将剥离文件夹路径,例如“ba ...
selenium之调用Javascript
selenium调用Javascript使用方法: driver.execute_script(js) 使用JS获取元素文本值,代码片段如下: ...... js = "return $(' ...
Ubuntu 16.04安装Maven
此篇为http://www.cnblogs.com/EasonJim/p/7139275.html的分支页. 前提:必须正确安装JDK. 一.通过二进制包(tar.gz)安装下载: 进入下载列表:h ...
IO模型介绍以及同步异步阻塞非阻塞的区别
阻塞:用户进程访问数据时,如果未完成IO,等待IO操作完成或者进行系统调用来判断IO是否完成非阻塞:用户进程访问数据时,会马上返回一个状态值,无论是否完成同步:用户进程发起IO(就绪判断)后,轮 ...

Hadoop基础-HDFS的API常见操作

Hadoop基础-HDFS的API常见操作的更多相关文章

随机推荐

热门专题