大数据学习——hdfs客户端流式操作代码的实现

package cn.itcast.bigdata.hdfs.diceng;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.*;

import org.apache.hadoop.io.IOUtils;

import org.junit.Before;

import org.junit.Test;

import java.io.File;

import java.io.FileInputStream;

import java.io.FileOutputStream;

import java.io.IOException;

/**

 * 相对那些封装好的方法而言的更底层一些的操作方式

 * 上层那些mapreduce   spark等运算框架，去hdfs中获取数据的时候，就是调的这种底层的api

 *

 * @author

 */

public class StreamAccess {

    FileSystem fs = null;

    @Before

    public void init() throws Exception {

        Configuration conf = new Configuration();

        System.setProperty("HADOOP_USER_NAME", "root");

        conf.set("fs.defaultFS", "hdfs://mini1:9000");

        fs = FileSystem.get(conf);

//        fs = FileSystem.get(new URI("hdfs://hadoop01:9000"), conf, "root");

    }

    @Test

    public void testDownLoadFileToLocal() throws IllegalArgumentException, IOException{

        //先获取一个文件的输入流----针对hdfs上的

        FSDataInputStream in = fs.open(new Path("/jdk-7u65-linux-i586.tar.gz"));

        //再构造一个文件的输出流----针对本地的

        FileOutputStream out = new FileOutputStream(new File("c:/jdk.tar.gz"));

        //再将输入流中数据传输到输出流

        IOUtils.copyBytes(in, out, 4096);

    }

    @Test

    public void testUploadByStream() throws Exception{

        //hdfs文件的输出流

        FSDataOutputStream fsout = fs.create(new Path("/aaa.txt"));

        //本地文件的输入流

        FileInputStream fsin = new FileInputStream("c:/111.txt");

        IOUtils.copyBytes(fsin, fsout,4096);

    }

    /**

     * hdfs支持随机定位进行文件读取，而且可以方便地读取指定长度

     * 用于上层分布式运算框架并发处理数据

     * @throws IllegalArgumentException

     * @throws IOException

     */

    @Test

    public void testRandomAccess() throws IllegalArgumentException, IOException{

        //先获取一个文件的输入流----针对hdfs上的

        FSDataInputStream in = fs.open(new Path("/iloveyou.txt"));

        //可以将流的起始偏移量进行自定义

        in.seek(22);

        //再构造一个文件的输出流----针对本地的

        FileOutputStream out = new FileOutputStream(new File("d:/iloveyou.line.2.txt"));

        IOUtils.copyBytes(in,out,19L,true);

    }

    /**

     * 读取指定的block

     * @throws IOException

     * @throws IllegalArgumentException

     */

    @Test

    public void testCat() throws IllegalArgumentException, IOException{

        FSDataInputStream in = fs.open(new Path("/weblog/input/access.log.10"));

        //拿到文件信息

        FileStatus[] listStatus = fs.listStatus(new Path("/weblog/input/access.log.10"));

        //获取这个文件的所有block的信息

        BlockLocation[] fileBlockLocations = fs.getFileBlockLocations(listStatus[0], 0L, listStatus[0].getLen());

        //第一个block的长度

        long length = fileBlockLocations[0].getLength();

        //第一个block的起始偏移量

        long offset = fileBlockLocations[0].getOffset();

        System.out.println(length);

        System.out.println(offset);

        //获取第一个block写入输出流

//        IOUtils.copyBytes(in, System.out, (int)length);

        byte[] b = new byte[4096];

        FileOutputStream os = new FileOutputStream(new File("d:/block0"));

        while(in.read(offset, b, 0, 4096)!=-1){

            os.write(b);

            offset += 4096;

            if(offset>length) return;

        };

        os.flush();

        os.close();

        in.close();

    }

}

大数据学习——hdfs客户端流式操作代码的实现的更多相关文章

大数据学习：storm流式计算
Storm是一个分布式的.高容错的实时计算系统.Storm适用的场景: 1.Storm可以用来用来处理源源不断的消息,并将处理之后的结果保存到持久化介质中. 2.由于Storm的处理组件都是分布式的, ...
大数据学习——hdfs客户端操作
package cn.itcast.hdfs; import org.apache.commons.io.IOUtils; import org.apache.hadoop.conf.Configur ...
大数据学习——点击流日志每天都10T，在业务应用服务器上，需要准实时上传至（Hadoop HDFS）上
点击流日志每天都10T,在业务应用服务器上,需要准实时上传至(Hadoop HDFS)上 1需求说明点击流日志每天都10T,在业务应用服务器上,需要准实时上传至(Hadoop HDFS)上 2需求分 ...
大数据学习——HDFS的shell
-help 功能:输出这个命令参数手册 -ls 功能:显示目录信息示例: hadoop fs -ls hdfs://hadoop-server01:9000/ 备注:这些参数中,所有的hdfs路径都 ...
大数据学习——hdfs集群启动
第一种方式: 1 格式化namecode(是对namecode进行格式化) hdfs namenode -format(或者是hadoop namenode -format) 进入 cd /root/ ...
大数据学习总结（7）we should...
大数据场景一.各种标签查询查询要素:人.事.物.单位查询范围:A范围.B范围.... 查询结果:pic.name.data from 1.痛点:对所有文本皆有实时查询需求2.难点:传统SQL使用W ...
大数据学习笔记——Hadoop编程实战之HDFS
HDFS基本API的应用(包含IDEA的基本设置) 在上一篇博客中,本人详细地整理了如何从0搭建一个HA模式下的分布式Hadoop平台,那么,在上一篇的基础上,我们终于可以进行编程实操了,同样,在编程 ...
大数据学习day31------spark11-------1. Redis的安装和启动，2 redis客户端 3.Redis的数据类型 4. kafka（安装和常用命令）5.kafka java客户端
1. Redis Redis是目前一个非常优秀的key-value存储系统(内存的NoSQL数据库).和Memcached类似,它支持存储的value类型相对更多,包括string(字符串).list ...
大数据学习系列之—HBASE
hadoop生态系统 zookeeper负责协调 hbase必须依赖zookeeper flume 日志工具 sqoop 负责 hdfs dbms 数据转换数据到关系型数据库转换大数据学习群119 ...

随机推荐

C3 Transitions, Transforms 以及 Animation总结
C3 Transitions, Transforms 以及 Animation总结前言昨天有人咨询我面试的注意事项, 突然就意识到自己这块非常差, 竟然没有任何的印象, 准备看着大神老师的博客, ...
Apache Kylin的核心概念
不多说,直接上干货! 1.表(table):This is definition of hive tables as source of cubes,在build cube 之前,必须同步在 kyli ...
AJPFX的反射学习笔记
反射是描述数据结构的结构属性.方法(数据)元数据类(数据结构)描述数据的结构-->类也是特殊的对象---->元数据 CLASS类描述数据结 ...
java实现汉诺塔算法
package com.ywx.count; import java.util.Scanner; /** * @author Vashon * date:20150410 * * 题目:汉诺塔算法(本 ...
UVA 11419 SAM I AM （最小点覆盖，匈牙利算法）
题意:给一个r*c的矩阵,某些格子中可能有一些怪物,可以在一行或一列防止一枚大炮,大炮会扫光整行/列的怪,问最少需要多少炮?输出炮的位置. 思路: 先每行和列都放一个炮,把炮当成点,把怪当成边,一边连 ...
linux之awk命令
一.awk的内置参数 $0:表示整个当前行 $1:每行第一个字段 $2:每行第二个字段 $n:每行第n个字段 awk的参数:分隔符 -F separator 设定分隔符(默认为空格) 打印单个字段: ...
python读取绝对路径的三种方式
import pandas as pd dood_inf0=pd.read_csv("C:\\Users\\Administrator\\Desktop\\food_info.csv&quo ...
postman使用--批量执行测试用例和数据驱动
批量执行在我们测试接口的时候,有时候希望执行所有的测试用例,前面讲的都是测试单个的接口,postman提供了我们批量执行接口的功能点击Runner 然后我们点击run 执行完会统计出我们的结果,失 ...
Android Studio中删除无效的字符串资源
1.定位到当前项目中的strings.xml文件 1.菜单栏找到"Analyze"->"Run Inspection By Name..."->输入 ...
No-6.用户权限相关命令
用户权限相关命令目标用户和权限的基本概念用户管理终端命令组管理终端命令修改权限终端命令 01. 用户和权限的基本概念 1.1 基本概念用户是 Linux 系统工作中重要 ...

大数据学习——hdfs客户端流式操作代码的实现

大数据学习——hdfs客户端流式操作代码的实现的更多相关文章

随机推荐

热门专题