Hadoop_11_HDFS的流式 API 操作

　　对于MapReduce等框架来说，需要有一套更底层的API来获取某个指定文件中的一部分数据，而不是一整个文件

因此使用流的方式来操作 HDFS上的文件，可以实现读取指定偏移量范围的数据

1.客户端测试类代码：

package cn.bigdata.hdfs;

import java.io.IOException;

import java.net.URI;

import java.net.URISyntaxException;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.FileSystem;

import org.junit.Before;

public class HdfsStreamAcess {

    //获取客户端操作hdfs的实例对象

    private FileSystem fs  = null;

    Configuration conf = null;

    @Before

    public void inin() throws IOException, InterruptedException, URISyntaxException{

        conf = new Configuration();

        //拿到一个文件系统操作的客户端实例对象,最后一个参数为用户名

        fs = FileSystem.get(new URI("hdfs://shizhan2:9000"),conf,"root");

    }

}

2.流式上传文件：

    //流式上传文件

    @Test

    public void testUploadWithStream() throws IllegalArgumentException, IOException{

        //true:该文件夹存在就覆盖  IOUtils:工具类

        FSDataOutputStream outputstream = fs.create(new Path("/angelababy.love"), true);

        FileInputStream input = new FileInputStream("c:/xxx.txt");

        IOUtils.copy(input, outputstream);

    }

3.流式下载文件：

    //流式下载文件

    @Test

    public void testDownloadWithStream() throws Exception{

        FSDataInputStream in = fs.open(new Path("/angelababy.love"));

        FileOutputStream out = new FileOutputStream("d:/access_stream.log");

        IOUtils.copy(in, out);

    }

4.流式读取指定长度的文件：

//文件的随机读写

    @Test

    public void testRandomAccess() throws Exception{

        FSDataInputStream in = fs.open(new Path("/regist-copy.log"));

        FileOutputStream out = new FileOutputStream("d:/random_stream.log");

        IOUtils.copyLarge(in, out, 1*1024*1024, 1*1024*1024); // 从1M位置开始读,读1M

    }

hdfs支持随机定位进行文件读取，而且可以方便地读取指定长度，用于上层分布式运算框架并发处理数据

5.控制台打印HDFS文件内容：

@Test

    public void testCat() throws Exception{

        FSDataInputStream in = fs.open(new Path("/angelababy.love"));

        IOUtils.copy(in,System.out);

    }

6.递归列出指定目录下所有子文件夹中的文件：

@Test

    public void testLs() throws Exception {

        RemoteIterator<LocatedFileStatus> listFiles = fs.listFiles(new Path("/"), true);

        while(listFiles.hasNext()){

            LocatedFileStatus fileStatus = listFiles.next();

            System.out.println("blocksize: " +fileStatus.getBlockSize());

            System.out.println("owner: " +fileStatus.getOwner());

            System.out.println("Replication: " +fileStatus.getReplication());

            System.out.println("Permission: " +fileStatus.getPermission());

            System.out.println("Name: " +fileStatus.getPath().getName());

            System.out.println("------------------");

            BlockLocation[] blockLocations = fileStatus.getBlockLocations();

            for(BlockLocation b:blockLocations){

                System.out.println("块起始偏移量: " +b.getOffset());

                System.out.println("块长度:" + b.getLength());

                //块所在的datanode节点

                String[] datanodes = b.getHosts();

                for(String dn:datanodes){

                System.out.println("datanode:" + dn);

                }

            }

        }

    }

7.获取文件块信息：

    @Test

    public void testGetFileBlock() throws Exception{

        FileStatus fileStatus = fs.getFileStatus(new Path("/pcre-8.35.tar.gz"));

        BlockLocation[] blockLocations = fs.getFileBlockLocations(fileStatus, 0, fileStatus.getLen());

        for (BlockLocation bl : blockLocations) {

            System.out.println("block-length:" + bl.getLength() + "--" + "block-offset:" + bl.getOffset());

            String[] hosts = bl.getHosts();

            for (String host : hosts) {

                System.out.println(host);

            }

        }

    }

Hadoop_11_HDFS的流式 API 操作的更多相关文章

Java8 流式 API（`java.util.stream`）
熟悉 ES6 的开发者,肯定对数组的一些方法不是很陌生:map.filter 等.在对一组对象进行统一操作时,利用这些方法写出来的代码比常规的迭代代码更加的简练.在 C♯ 中,有 LINQ 来实现.那 ...
jackson 流式API
http://www.cnblogs.com/lee0oo0/articles/2652528.html Jackson提供了三种可选的JSON处理方法 1.流式API com.fasterx ...
FunDA（2）－ Streaming Data Operation：流式数据操作
在上一集的讨论里我们介绍并实现了强类型返回结果行.使用强类型主要的目的是当我们把后端数据库SQL批次操作搬到内存里转变成数据流式按行操作时能更方便.准确.高效地选定数据字段.在上集讨论示范里我们用集合 ...
Java 8 集合之流式(Streams)操作, Streams API 详解
因为当时公司的业务需要对集合进行各种各样的业务逻辑操作,为了提高性能,就用到了这个东西,因为以往我们以前用集合都是需要去遍历(串行),所以效率和性能都不是特别的好,而Streams就可以使用并行的方式 ...
Go 通过 Map/Filter/ForEach 等流式 API 高效处理数据
什么是流处理如果有 java 使用经验的同学一定会对 java8 的 Stream 赞不绝口,极大的提高了们对于集合类型数据的处理能力. int sum = widgets.stream() .fi ...
Jackson流式API
public class JacksonTester { public static void main(String args[]){ JacksonTester tester = new ...
lambda表达式以及stream流式api用法
https://www.cnblogs.com/aoeiuv/p/5911692.html 这篇文章讲的简单全面,记录下 kotlin一些符号的用法 https://www.cnblogs.com/l ...
Mysql中使用JDBC流式查询避免数据量过大导致OOM
一.前言 java 中MySQL JDBC 封装了流式查询操作,通过设置几个参数,就可以避免一次返回数据过大导致 OOM. 二.如何使用 2.1 之前查询 public void selectData ...
JDK8新特性(二) 流式编程Stream
流式编程是1.8中的新特性,基于常用的四种函数式接口以及Lambda表达式对集合类数据进行类似流水线一般的操作流式编程分为大概三个步骤:获取流 → 操作流 → 返回操作结果流的获取方式这里先了解 ...

随机推荐

docker启动cavisor监控
docker启动cavisor监控 docker run --volume=/:/rootfs:ro --volume=/var/run:/var/run:rw --volume=/sys:/sys: ...
20190903 - CSDN 的奇葩替换
可能是出于安全原因 CSDN 对内容中的代码,作了很多奇葩的替换. 比如下面两行,是否有差别? # - # -16 有.其实 cut 后的短横线,内部编码不同,前者复制后无法被识别. 再比如下面两个词 ...
DP————最小覆盖问题
原题:https://www.luogu.org/problem/P2279 题解转载自:https://www.luogu.org/blog/contributation/solution-p227 ...
深入理解C语言-结构体做函数参数
结构体做函数参数,在C语言中属于常见现象,此时为了内存考虑,不传递结构体,而是传递结构体的地址结构体定义 struct Man { char name[64]; int age; }; 结构体可以与 ...
PHP学习（3）——数据的存储与检索
要点目录: I.保存数据 II.打开文件 III.创建并写入文件 IV.关闭文件 V.读文件 VI.给文件加锁 VII.删除文件 VIII.其他有用的文件操作函数 IX.数据库管理系统 1.保存数 ...
Python 中__new__()和__init__()的区别
转自: https://blog.csdn.net/weixin_37579123/article/details/89515577 __new__方法:类级别的方法特性: 1.是在类准备将自身实例 ...
Daily Temperatures
Given a list of daily temperatures T, return a list such that, for each day in the input, tells you ...
[转帖]公钥基础设施(PKI)/CFSSL证书生成工具的使用
公钥基础设施(PKI)/CFSSL证书生成工具的使用 weilovepan520关注1人评论84344人阅读2018-05-26 12:22:20 https://blog.51cto.com/liu ...
【转帖】k8s-kubectl命令大全
https://www.cnblogs.com/fuyuteng/p/9458282.html 学习一下 Kubectl命令行管理对象类型命令描述基础命令 create 通过文件名或标准输入创 ...
Log4j2日志配置详解(1)
log4j与log4j不同:log4j是通过Logger的静态方法getLogger()获取Logger对象,而log4j2是通过LogManager的静态方法getLogger()获取Logger对 ...

Hadoop_11_HDFS的流式 API 操作

Hadoop_11_HDFS的流式 API 操作的更多相关文章

随机推荐

热门专题