Hadoop:读取ｈｄｆｓ上ｚｉｐ压缩包并解压到ｈｄｆｓ的实现代码

背景：

目前工作中遇到一大批的数据，如果不压缩直接上传到ｆｔｐ上就会遇到ｆｔｐ空间资源不足问题，没办法只能压缩后上传，上穿完成后在ｌｉｎｕｘ上下载。但是ｌｉｎｕｘ客户端的资源只有２０Ｇ左右一个压缩包解压后就要占用１６Ｇ左右的空间，因此想在ｌｉｎｕｘ上直接解压已经太折腾了（因为我们一共需要处理的这样的压缩包包含有３０个左右）。

解决方案：

先把ｌｉｎｕｘ上下载到的ｚｉｐ压缩包上传到ｈｄｆｓ，等待所有ｚｉｐ压缩包都上传完成后，开始使用程序直接在读取ｈｄｆｓ上的压缩包文件，直接解压到ｈｄｆｓ上，之后把解压后的文件压缩为ｇｚｉｐ，实现代码如下（参考：http://www.cnblogs.com/juefan/articles/2935163.html）：

import java.io.File;

import java.io.IOException;

import java.util.zip.GZIPOutputStream;

import java.util.zip.ZipEntry;

import java.util.zip.ZipInputStream;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.FSDataInputStream;

import org.apache.hadoop.fs.FSDataOutputStream;

import org.apache.hadoop.fs.FileStatus;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.Text;

/**

 * Created by Administrator on 12/10/2017.

 */

public class ConvertHdfsZipFileToGzipFile {

    public static boolean isRecur = false;

    public static void main(String[] args) throws IOException {

        if (args.length == 0)

            errorMessage("1filesmerge [-r|-R] <hdfsTargetDir> <hdfsFileName>");

        if (args[0].matches("^-[rR]$")) {

            isRecur = true;

        }

        if ((isRecur && args.length != 4) || ( !isRecur && args.length != 3)) {

            errorMessage("2filesmerge [-r|-R] <hdfsTargetDir> <hdfsFileName>");

        }

        Configuration conf = new Configuration();

        FileSystem hdfs = FileSystem.get(conf);

        Path inputDir;

        Path hdfsFile;

        Text pcgroupText;

        // hadoop jar myjar.jar ConvertHdfsZipFileToGzipFile -r /zip/(待转换文件路径，在HDFS上) /user/j/pconline/(转换完成后的文件存储地址，也在HDFS上) pconline(待转换的文件名包含的字符)

        if(isRecur){

            inputDir = new Path(args[1]);

            hdfsFile = new Path(args[2]);

            pcgroupText = new Text(args[3]);

        }

        // hadoop jar myjar.jar ConvertHdfsZipFileToGzipFile /zip/(待转换文件路径，在HDFS上) /user/j/pconline/(转换完成后的文件存储地址，也在HDFS上) pconline(待转换的文件名包含的字符)

        else{

            inputDir = new Path(args[0]);

            hdfsFile = new Path(args[1]);

            pcgroupText = new Text(args[2]);

        }

        if (!hdfs.exists(inputDir)) {

            errorMessage("3hdfsTargetDir not exist!");

        }

        if (hdfs.exists(hdfsFile)) {

            errorMessage("4hdfsFileName exist!");

        }

        merge(inputDir, hdfsFile, hdfs, pcgroupText);

        System.exit(0);

    }

    /**

     * @author

     * @param inputDir zip文件的存储地址

     * @param hdfsFile 解压结果的存储地址

     * @param hdfs 分布式文件系统数据流

     * @param pcgroupText 需要解压缩的文件关键名

     */

    public static void merge(Path inputDir, Path hdfsFile,

                             FileSystem hdfs, Text pcgroupText) {

        try {

            //文件系统地址inputDir下的FileStatus

            FileStatus[] inputFiles = hdfs.listStatus(inputDir);

            for (int i = 0; i < inputFiles.length; i++) {

                if (!hdfs.isFile(inputFiles[i].getPath())) {

                    if (isRecur){

                        merge(inputFiles[i].getPath(), hdfsFile, hdfs,pcgroupText);

                        return ;

                    }

                    else {

                        System.out.println(inputFiles[i].getPath().getName()

                                + "is not file and not allow recursion, skip!");

                        continue;

                    }

                }

                //判断文件名是否在需要解压缩的关键名内

                if(inputFiles[i].getPath().getName().contains(pcgroupText.toString()) == true){

                    //输出待解压的文件名

                    System.out.println(inputFiles[i].getPath().getName());

                    //将数据流指向待解压文件

                    FSDataInputStream in = hdfs.open(inputFiles[i].getPath());

                    /**

                     *数据的解压执行过程

                     */

                    ZipInputStream zipInputStream = null;

                    try{

                        zipInputStream = new ZipInputStream(in);

                        ZipEntry entry;

                        //解压后有多个文件一并解压出来并实现合并

                        //合并后的地址

                        FSDataOutputStream mergerout = hdfs.create(new Path(hdfsFile + File.separator +

                                inputFiles[i].getPath().getName().substring(0, inputFiles[i].getPath().getName().indexOf("."))));

                        while((entry = zipInputStream.getNextEntry()) != null){

                            int bygeSize1=2*1024*1024;

                            byte[] buffer1 = new byte[bygeSize1];

                            int nNumber;

                            while((nNumber = zipInputStream.read(buffer1,0, bygeSize1)) != -1){

                                mergerout.write(buffer1, 0, nNumber);

                            }

                        }

                        mergerout.flush();

                        mergerout.close();

                        zipInputStream.close();

                    }catch(IOException e){

                        continue;

                    }

                    in.close();

                    /**

                     *将解压合并后的数据压缩成gzip格式

                     */

                    GZIPOutputStream gzipOutputStream = null;

                    try{

                        FSDataOutputStream outputStream = null;

                        outputStream = hdfs.create(new Path(hdfsFile + File.separator +

                                inputFiles[i].getPath().getName().substring(0, inputFiles[i].getPath().getName().indexOf(".")) + ".gz"));

                        FSDataInputStream inputStream = null;

                        gzipOutputStream = new GZIPOutputStream(outputStream);

                        inputStream = hdfs.open(new Path(hdfsFile + File.separator + inputFiles[i].getPath().getName().substring(0, inputFiles[i].getPath().getName().indexOf("."))));

                        int bygeSize=2*1024*1024;

                        byte[] buffer = new byte[bygeSize];

                        int len;

                        while((len = inputStream.read(buffer)) > 0){

                            gzipOutputStream.write(buffer, 0, len);

                        }

                        inputStream.close();

                        gzipOutputStream.finish();

                        gzipOutputStream.flush();

                        outputStream.close();

                    }catch (Exception exception){

                        exception.printStackTrace();

                    }

                    gzipOutputStream.close();

                    //删除zip文件解压合并后的临时文件

                    String tempfiles = hdfsFile + File.separator + inputFiles[i].getPath().getName().substring(0, inputFiles[i].getPath().getName().indexOf("."));

                    try{

                        if(hdfs.exists(new Path(tempfiles))){

                            hdfs.delete(new Path(tempfiles), true);

                        }

                    }catch(IOException ie){

                        ie.printStackTrace();

                    }

                }

            }

        }catch (IOException e) {

            e.printStackTrace();

        }

    }

    public static void errorMessage(String str) {

        System.out.println("Error Message: " + str);

        System.exit(1);

    }

}

调用：

[ｃ@v09823]# hadoop jar myjar.jar [ConvertHdfsZipFileToGzipFile该ｍａｉｎ的类名根据打包方式决定是否需要] /zip/(待转换文件路径，在HDFS上) /user/j/pconline/(转换完成后的文件存储地址，也在HDFS上) pconline(待转换的文件名包含的字符)

如果要实现递归的话，可以在filesmerge后面加上 -r

执行过程中快照：

[c@v09823 ~]$ hadoop fs -ls /user/c/df/myzip

// :: INFO hdfs.PeerCache: SocketCache disabled.

Found  items

-rw-r--r--+   c hadoop  -- : user/c/df/myzip/myzip_0.zip

-rw-r--r--+   c hadoop  -- : user/c/df/myzip/myzip_12.zip

-rw-r--r--+   c hadoop  -- : user/c/df/myzip/myzip_15.zip

...

[ｃ@v09823 ~]$ yarn jar My_ConvertHdfsZipFileToGzipFile.jar /user/c/df/myzip user/c/df/mygzip .zip

// :: INFO hdfs.PeerCache: SocketCache disabled.

myzip_0.zip

myzip_12.zip

myzip_15.zip

...

[catt@vq20skjh01 ~]$ hadoop fs -ls -h user/c/df/mygzip

// :: INFO hdfs.PeerCache: SocketCache disabled.

Found  items

-rw-r--r--+   c hadoop      14.9 G -- : user/c/df/mygzip/myzip_0

-rw-r--r--+   c hadoop      14.9 G -- : user/c/df/mygzip/myzip_12

-rw-r--r--+   c hadoop          G -- : user/c/df/mygzip/myzip_15

....

Hadoop:读取ｈｄｆｓ上ｚｉｐ压缩包并解压到ｈｄｆｓ的实现代码的更多相关文章

第1节 IMPALA：4、5、linux磁盘的挂载和上传压缩包并解压
第二步:开机之后进行磁盘挂载分区,格式化,挂载新磁盘磁盘挂载 df -lh fdisk -l 开始分区 fdisk /dev/sdb 这个命令执行后依次输 n p 1 回车回车 w ...
liunx之zip格式的解压命令
zip -r myfile.zip ./* 将当前目录下的所有文件和文件夹全部压缩成myfile.zip文件,-r表示递归压缩子目录下所有文件. 2.unzip unzip -o -d /home/s ...
文件操作工具类：文件/目录的创建、删除、移动、复制、zip压缩与解压.
FileOperationUtils.java package com.xnl.utils; import java.io.BufferedInputStream; import java.io.Bu ...
「Python实用秘技01」复杂zip文件的解压
本文完整示例代码及文件已上传至我的Github仓库https://github.com/CNFeffery/PythonPracticalSkills 这是我的新系列文章「Python实用秘技」的第1 ...
ref:Spring Integration Zip 不安全解压（CVE-2018-1261）漏洞分析
ref:https://mp.weixin.qq.com/s/SJPXdZWNKypvWmL-roIE0Q 0x00 漏洞概览漏洞名称:Spring Integration Zip不安全解压漏洞编 ...
java zip 压缩与解压
java zip 压缩与解压 import java.io.BufferedInputStream; import java.io.BufferedOutputStream; import java. ...
Linux tar.gz 、zip、rar 解压压缩命令
tar -c: 建立压缩档案 -x:解压 -t:查看内容 -r:向压缩归档文件末尾追加文件 -u:更新原压缩包中的文件这五个是独立的命令,压缩解压都要用到其中一个,可以和别的命令连用但只能用其中一个 ...
ubuntu下各种压缩包的解压命令
.tar解包:tar xvf FileName.tar打包:tar cvf FileName.tar DirName(注:tar是打包,不是压缩!)-------------------------- ...
正确的 zip 压缩与解压代码
网上流传的zip压缩与解压的代码有非常大的问题尽管使用了ant进行压缩与解压,可是任务的流程还是用的java.util.zip 的方式写的,我在使用的过程中遇到了压缩的文件夹结构有误,甚至出现不同 ...

随机推荐

Linux最佳的云存储服务分析
什么样的云服务才适合作为 Linux 下的存储服务?兄弟连www.itxdl.cn来帮大家分析一下! 大量的免费空间.毕竟,个人用户无法支付每月的巨额款项. 原生的 Linux 客户端.以便你能够方便 ...
C语言第六次作业--数据类型
一.PTA实验作业题目1,简单计算器: 1. 本题PTA提交列表 2. 设计思路定义操作数num1,num2,结果result=0.运算符ch. 输入num1 while (ch=getchar( ...
C语言第三次博客作业---单层循环结构
一.PTA实验作业题目1 1.实验代码 int N,i; //N为用户数,i记录循环变量 double height; //height放身高 char sex; //sex放性别F为女,M为男 s ...
深入学习Redis（1）：Redis内存模型
前言 Redis是目前最火爆的内存数据库之一,通过在内存中读写数据,大大提高了读写速度,可以说Redis是实现网站高并发不可或缺的一部分. 我们使用Redis时,会接触Redis的5种对象类型(字符串 ...
iOS 消息发送与转发详解
Objective-C 是一门动态语言,它将很多静态语言在编译和链接时期做的事情,放到了运行时来处理.之所以能具备这种特性,离不开 Runtime 这个库.Runtime 很好的解决了如何在运行时期找 ...
关于php日期前置是否有0
例如:2018-01-04,这个日期和月份前置是有0 如果不想有0,date( 'y-n-j',time() ):默认的是date( 'y-m-d',time() ),这个日期和月份前置是有0. da ...
Solr+Tomcat+zookeeper部署实战
一 .安装solr 环境说明:centos 7.3,solr 6.6,zookeeper3.4,Tomcat8.5,jdk1.8 zookeeper的部署请参考:http://www.cnblogs. ...
Mysql性能优化之覆盖索引
因为我们大多数情况下使用的都是Innodb,所以这篇博客主要依据Innodb来讲 b+树(图片来自网络) b+树图来自网络 1.聚集索引与非聚集索引区别聚集索引:叶子节点包含完整的数据(物理地址连续 ...
201621123062《java程序设计》第九周作业总结
1. 本周学习总结 1.1 以你喜欢的方式(思维导图或其他)归纳总结集合与泛型相关内容. 思维导图1:(对集合部分做了一些改动和细化) 思维导图2:(泛型) 1.2 选做:收集你认为有用的代码片段代 ...
DOM相关知识
一.查找元素间接查找 parentNode // 父节点 childNodes // 所有子节点 firstChild // 第一个子节点 lastChild // 最后一个子节点 nextSibl ...

Hadoop:读取ｈｄｆｓ上ｚｉｐ压缩包并解压到ｈｄｆｓ的实现代码

背景：

解决方案：

调用：

执行过程中快照：

Hadoop:读取ｈｄｆｓ上ｚｉｐ压缩包并解压到ｈｄｆｓ的实现代码的更多相关文章

随机推荐

热门专题