使用Hadoop API 解压缩 HDFS文件

　　压缩完了，当然需要解压缩了。

　　直接上代码：

private static void getFile(String filePath) throws IOException, ClassNotFoundException {

        FileSystem fs = FileSystem.get(URI.create(filePath), HDFSConf.getConf());

        Path path = new Path(filePath);

        if (fs.exists(path) ) {

            FSDataInputStream in;

            FSDataOutputStream out;

            Path outPath;

            FileStatus file = fs.getFileStatus(path);

            // 该压缩方法对应的文件扩展名

            outPath = new Path(filePath.substring(0,filePath.indexOf(".")) + ".new");

            logger.info("out put path is : " + outPath.toString());

            if (fs.createNewFile(outPath)) {

                CompressionCodecFactory factory = new CompressionCodecFactory(HDFSConf.getConf());

                CompressionCodec codec = factory.getCodec(file.getPath());

                in = fs.open(file.getPath());

                InputStream cin = codec.createInputStream(in);

                logger.info("create file  : " + outPath.toString());

                out = fs.append(outPath);

                // 缓冲区设为5MB

                IOUtils.copyBytes(cin, out, 1024 * 1024 * 5, false);

                out.flush();

                cin.close();

                in.close();

                out.close();

                logger.info("Decompress file successful");

            } else {

                logger.error("File exists");

            }

        } else {

            logger.info("There is no file :" + filePath);

        }

    }

打包执行：　　

[hadoop@venn05 venn]$ java -cp compressHdfsFile-1.0-SNAPSHOT.jar com.utstarcom.hdfs.DeCompressFile /aaa/test/viewlog_20180402.log.gz

-- ::44.562 [Common.java] [main]

INFO : start init :

-- ::44.566 [Common.java] [main]

INFO : properties path : /opt/hadoop/tmp/venn/

/opt/hadoop/tmp/venn/hdfs.properties

default.compress.format

hdfs.uri

-- ::44.568 [Common.java] [main]

INFO : get System enviroment :

-- ::44.569 [Common.java] [main]

INFO : properties path : {hdfs.uri=hdfs://venn06:8020, default.compress.format=bz2}

hdfs://venn06:8020/aaa/test/viewlog_20180402.log.gz

log4j:WARN No appenders could be found for logger (org.apache.hadoop.util.Shell).

log4j:WARN Please initialize the log4j system properly.

log4j:WARN See http://logging.apache.org/log4j/1.2/faq.html#noconfig for more info.

-- ::46.409 [DeCompressFile.java] [main]

INFO : out put path is : hdfs://venn06:8020/aaa/test/viewlog_20180402.new

-- ::46.623 [DeCompressFile.java] [main]

INFO : create file : hdfs://venn06:8020/aaa/test/viewlog_20180402.new

-- ::24.566 [DeCompressFile.java] [main]

INFO : Decompress file successful

cost :

39 s

　文件大小： 249.4 M ，解压后大小：1.4 G，执行时间 39 s，很不错

文件大小：

[hadoop@ut01 venn]$ hadoop fs -ls /aaa/test/

// :: WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable

Found  items

-rw-r--r--  hadoop supergroup  -- : /aaa/test/viewlog_20180402.log

-rw-r--r--  hadoop supergroup  -- : /aaa/test/viewlog_20180402.log.gz

-rw-r--r--  hadoop supergroup  -- : /aaa/test/viewlog_20180402.new

[hadoop@ut01 venn]$ hadoop fs -ls -h /aaa/test/

// :: WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable

Found  items

-rw-r--r-- 3 hadoop supergroup 1.4 G 2018-06-03 17:07 /aaa/test/viewlog_20180402.log

-rw-r--r-- 3 hadoop supergroup 249.4 M 2018-06-09 15:46 /aaa/test/viewlog_20180402.log.gz

-rw-r--r-- 3 hadoop supergroup 1.4 G 2018-06-09 15:43 /aaa/test/viewlog_20180402.new

　项目地址：码云

使用Hadoop API 解压缩 HDFS文件的更多相关文章

使用Hadoop API 压缩HDFS文件
下篇解压缩:使用Hadoop API 解压缩 HDFS文件起因: 集群磁盘剩余空间不足. 删除了存储在HDFS上的,一定时间之前的中间结果,发现并不能释放太多空间,查看计算业务,发现,每天的日志存在 ...
JAVA API 实现hdfs文件操作
java api 实现hdfs 文件操作会出现错误提示: Permission denied: user=hp, access=WRITE, inode="/":hdfs:supe ...
Hadoop API：遍历文件分区目录，并根据目录下的数据进行并行提交spark任务
hadoop api提供了一些遍历文件的api,通过该api可以实现遍历文件目录: import java.io.FileNotFoundException; import java.io.IOExc ...
java Api 读取HDFS文件内容
package dao; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.*; import java ...
Hadoop如何修改HDFS文件存储块大小
一. 临时修改可以在执行上传文件命令时,显示地指定存储的块大小.1. 查看当前 HDFS文件块大小我这里查看HDFS上的TEST目录下的jdk-7u25-linux-x64.gz 文件存储块大小.1 ...
使用java api操作HDFS文件
实现的代码如下: import java.io.IOException; import java.net.URI; import java.net.URISyntaxException; import ...
hadoop学习记录--hdfs文件上传过程源码解析
本节并不大算为大家讲接什么是hadoop,或者hadoop的基础知识因为这些知识在网上有很多详细的介绍,在这里想说的是关于hdfs的相关内容.或许大家都知道hdfs是hadoop底层存储模块,专门用于 ...
Structure Streaming和spark streaming原生API访问HDFS文件数据对比
此文已由作者岳猛授权网易云社区发布. 欢迎访问网易云社区,了解更多网易技术产品运营经验. Structure Stream访问方式 code examples import org.apache.sp ...
用java api读取HDFS文件
import java.io.IOException; import java.io.InputStream; import java.security.PrivilegedExceptionActi ...

随机推荐

Driver stacktrace: at org.apache.spark.scheduler.DAGScheduler.org$apache$spark$scheduler$DAGSchedul
在写Spark程序是遇到问题 Driver stacktrace: at org.apache.spark.scheduler.DAGScheduler.orgapacheapachesparksch ...
贪吃蛇Controller Java实现(二)
package cn.tcc.snake.Controller; import java.awt.Point;import java.awt.event.KeyAdapter;import java. ...
字符串 String 格式化 format
String str=String.format("Hi,%s", "王力"); 保留两位数的整数: String str=String.format(&quo ...
turret
turret - 必应词典美['tʌrət]英['tʌrɪt] n.角楼:(战舰.飞机或坦克的)炮塔网络塔楼:转塔:转台
tomcat启动闪退之内存不足及显著优化
增大内存: 打开catalina.bat,@echo off回车输入 set JAVA_OPTS=-server -Xms256m -Xmx512m -XX:PermSize=128M -XX:Ma ...
8.16 val()和html()的问题
今天在做关闭模态框重置表单时,关闭模态框后输入框里的值还是在,不知道怎么回事? 感谢wd啦,原来我在初始化这个输入框的时候就写错了,输入框写值的时候用的是val(),而我和上面的div一样,用的是ht ...
【linux】下Apache无法启动（8080端口被占用）
Linux下8080端口被占用,apache无法启动. 打开终端输入netstat -lnp|grep 8080 发现竟然是tcp6 占用里,因此ipv6启用占用了端口. 1.打开/etc/sysct ...
how2j网站前端项目——天猫前端（第一次）学习笔记5
收拾好心情,现在开始学习第5个页面——购物车页面! 一.结算按钮这个还是比较简单的,我自己看着站长的样子模仿了一个: 有个地方不会做,就是全选前面的复选框,站长的框里面是白色的,我搞不来. 二.订单 ...
Github上删除仓库
1.先进入到工程里面,然后选择“Settings” 2.将页面拉到最下面,然后点击“Delete this repository”,接着在弹出的窗口中输入需要删除的仓库名. 弹出的窗口如下:
iOS.Book.Mac OS X and iOS Internals: To the Apple’s Core
深入解析Mac OS X & iOS操作系统 http://product.china-pub.com/3769686

使用Hadoop API 解压缩 HDFS文件

使用Hadoop API 解压缩 HDFS文件的更多相关文章

随机推荐

热门专题