hadoop 将HDFS上多个小文件合并到SequenceFile里

背景：hdfs上的文件最好和hdfs的块大小的N倍。如果文件太小，浪费namnode的元数据存储空间以及内存，如果文件分块不合理也会影响mapreduce中map的效率。

本例中将小文件的文件名作为key，其内容作为value生成SequenceFile

1、生成文件

 //将目标目录的所有文件以文件名为key，内容为value放入SequenceFile中

    //第一个参数是需要打包的目录，第二个参数生成的文件路径和名称

    private static void combineToSequenceFile(String[] args) throws IOException {

        String sourceDir = args[0];

        String destFile = args[1];

        List<String> files = getFiles(sourceDir);

        Configuration conf = new Configuration();

        FileSystem fs = FileSystem.get(conf);

        Path destPath = new Path(destFile);

        if (fs.exists(destPath)) {

            fs.delete(destPath, true);

        }

        FSDataInputStream in = null;

        Text key = new Text();

        BytesWritable value = new BytesWritable();

        byte[] buff = new byte[4096];

        SequenceFile.Writer writer = null;

        SequenceFile.Writer.Option option1 = SequenceFile.Writer.file(new Path(destFile));

        SequenceFile.Writer.Option option2 = SequenceFile.Writer.keyClass(key.getClass());

        SequenceFile.Writer.Option option3 = SequenceFile.Writer.valueClass(value.getClass());

        SequenceFile.Writer.Option option4 = SequenceFile.Writer.compression(SequenceFile.CompressionType.RECORD);

        try {

            writer = SequenceFile.createWriter(conf, option1, option2, option3, option4);

            for (int i = 0; i < files.size(); i++) {

                Path path = new Path(files.get(i).toString());

                System.out.println("读取文件：" + path.toString());

                key = new Text(files.get(i).toString());

                in = fs.open(path);

//                只能处理小文件，int最大只能表示到1个G的大小，实际上大文件放入SequenceFile也没有意义

                int length = (int) fs.getFileStatus(path).getLen();

                byte[] bytes = new byte[length];

//                read最多只能读取65536的大小

                int readLength = in.read(buff);

                int offset = 0;

                while (readLength > 0) {

                    System.arraycopy(buff, 0, bytes, offset, readLength);

                    offset += readLength;

                    readLength = in.read(buff);

                }

                System.out.println("file length:" + length + ",read length:" + offset);

                value = new BytesWritable(bytes);

                System.out.printf("[%s]\t%s\t%s\n", writer.getLength(), key, value.getLength());

                writer.append(key, value);

            }

        } finally {

            IOUtils.closeStream(in);

            IOUtils.closeStream(writer);

            IOUtils.closeStream(fs);

        }

    }

查找文件：

    private static List<String> getFiles(String dir) throws IOException {

        Configuration conf = new Configuration();

        Path path = new Path(dir);

        FileSystem fs = null;

        List<String> filelist = new ArrayList<>();

        try {

            fs = FileSystem.get(conf);

            //对单个文件或目录下所有文件和目录

            FileStatus[] fileStatuses = fs.listStatus(path);

            for (FileStatus fileStatus : fileStatuses) {

                //递归查找子目录

                if (fileStatus.isDirectory()) {

                    filelist.addAll(getFiles(fileStatus.getPath().toString()));

                } else {

                    filelist.add(fileStatus.getPath().toString());

                }

            }

            return filelist;

        } finally {

            IOUtils.closeStream(fs);

        }

    }

2、还原压缩的SequenceFile文件

    //将combineToSequenceFile生成的文件分解成原文件。

    private static void extractCombineSequenceFile(String[] args) throws IOException {

        String sourceFile = args[0];

//        String destdir = args[1];

        Configuration conf = new Configuration();

        Path sourcePath = new Path(sourceFile);

        SequenceFile.Reader reader = null;

        SequenceFile.Reader.Option option1 = SequenceFile.Reader.file(sourcePath);

        Writable key = null;

        Writable value = null;

//        Text key = null;

//        BytesWritable value = null;

        FileSystem fs = FileSystem.get(conf);

        try {

            reader = new SequenceFile.Reader(conf, option1);

            key = (Writable) ReflectionUtils.newInstance(reader.getKeyClass(), conf);

            value = (Writable) ReflectionUtils.newInstance(reader.getValueClass(), conf);

            //在知道key和value的明确类型的情况下，可以直接用其类型

//            key = ReflectionUtils.newInstance(Text.class, conf);

//            value =  ReflectionUtils.newInstance(BytesWritable.class, conf);

            long position = reader.getPosition();

            while (reader.next(key, value)) {

                FSDataOutputStream out = fs.create(new Path(key.toString()), true);

                //文件头会多出4个字节，用来标识长度，而本例中原文件头是没有长度的，所以不能用这个方式写入流

//                value.write(out);

                out.write(((BytesWritable)value).getBytes(),0,((BytesWritable)value).getLength());

                //                out.write(value.getBytes(),0,value.getLength());

                System.out.printf("[%s]\t%s\t%s\n", position, key, out.getPos());

                out.close();

                position = reader.getPosition();

            }

        } finally {

            IOUtils.closeStream(reader);

            IOUtils.closeStream(fs);

        }

    }

hadoop 将HDFS上多个小文件合并到SequenceFile里的更多相关文章

第3节 mapreduce高级：5、6、通过inputformat实现小文件合并成为sequenceFile格式
1.1 需求无论hdfs还是mapreduce,对于小文件都有损效率,实践中,又难免面临处理大量小文件的场景,此时,就需要有相应解决方案 1.2 分析小文件的优化无非以下几种方式: 1. 在数据 ...
Hadoop MapReduce编程 API入门系列之小文件合并（二十九）
不多说,直接上代码. Hadoop 自身提供了几种机制来解决相关的问题,包括HAR,SequeueFile和CombineFileInputFormat. Hadoop 自身提供的几种小文件合并机制 ...
HDFS操作及小文件合并
小文件合并是针对文件上传到HDFS之前这些文件夹里面都是小文件参考代码 package com.gong.hadoop2; import java.io.IOException; import j ...
Hadoop经典案例（排序&Join&topk&小文件合并）
①自定义按某列排序,二次排序 writablecomparable中的compareto方法 ②topk a利用treemap,缺点:map中的key不允许重复:https://blog.csdn.n ...
hive小文件合并设置参数
Hive的后端存储是HDFS,它对大文件的处理是非常高效的,如果合理配置文件系统的块大小,NameNode可以支持很大的数据量.但是在数据仓库中,越是上层的表其汇总程度就越高,数据量也就越小.而且这些 ...
hive优化之小文件合并
文件数目过多,会给HDFS带来压力,并且会影响处理效率,可以通过合并Map和Reduce的结果文件来消除这样的影响: set hive.merge.mapfiles = true ##在 map on ...
MR案例：小文件合并SequeceFile
SequeceFile是Hadoop API提供的一种二进制文件支持.这种二进制文件直接将<key, value>对序列化到文件中.可以使用这种文件对小文件合并,即将文件名作为key,文件 ...
Hive merge（小文件合并）
当Hive的输入由非常多个小文件组成时.假设不涉及文件合并的话.那么每一个小文件都会启动一个map task. 假设文件过小.以至于map任务启动和初始化的时间大于逻辑处理的时间,会造成资源浪费.甚至 ...
hadoop(十)hdfs上传删除文件（完全分布式七)|12
集群测试上传小文件到集群,随便选择一个小文件上传到hdfs的根目录 [shaozhiqi@hadoop102 hadoop-3.1.2]$ bin/hdfs dfs -put wcinput/wc. ...

随机推荐

redis 学习笔记二
redis启动: 直接 redis-server.exe 启动服务,是按照redis默认配置启动的,如果想按照自己的配置文件启动,要加上 redis-server.exe redis.windows ...
修改Eclipse中项目在Apache Tomcat中的部署路径
在Eclipse中配项目已经部署到如下默认目录下:eclipse workspace/.metadata/.plugins/org.eclipse.core.resources/.projects. ...
BBU+RRU基本介绍
现代移动通信网络中的数模转化架构:RRU+BBU: 因为学习需要了解RRU+BBU.特此网上查找了一番,找到了一些还不错的解释,分享给大家! BBU与RRU的区别: 通常大型建筑物内部的层间有楼板,房 ...
MySQL日期、字符串、时间戳互转
平时比较常用的时间.字符串.时间戳之间的互相转换,虽然常用但是几乎每次使用时候都喜欢去搜索一下用法:本文将作为一个笔记,整理一下三者之间的转换(即:date转字符串.date转时间戳.字符串转dat ...
通过 zxing 生成二维码
二维码现在随处可见,在日常的开发中,也会经常涉及到二维码的生成,特别是开发一些活动或者推广方面的功能时,二维码甚至成为必备功能点.本文介绍通过 google 的 zxing 包生成带 logo 的二维 ...
缓存 memcache 小白笔记
W: Memcached是神魔? Q:Memcached是一个自由开源的,高性能,分布式内存对象缓存系统. W:原理图 Q:如下 1浏览器 2 服务器 3 数据库 4 memcac ...
hihocoder刷题扫雷游戏
题目1 : 扫雷游戏时间限制:10000ms 单点时限:1000ms 内存限制:256MB 描述给定一个N × N的方格矩阵,其中每个格子或者是'*',表示该位置有一个地雷:或者是'.',表示该位 ...
python 文件编译成exe可执行文件。
pyinstaller打包方法: pyinstaller安装参考地址:http://www.pyinstaller.org/ pywin32的下载地址:https://sourceforge.net/ ...
adb 在windows7中的使用
我的系统环境是win7 x64 首先放上资源链接:https://pan.baidu.com/s/1eTV5qX8 密码:2ejw 第一步: 配置环境变量,将adb.exe的路径添加到PATH里面去: ...
mvc中actionresult的返回值类型
以前一直没注意actionresult都能返回哪些类型的类型值(一直用的公司的内部工具类初始化进行返回的),今天跟大家分享一下(也是转载的别人的日志qaq). 首先我们了解一下对action的要求: ...

hadoop 将HDFS上多个小文件合并到SequenceFile里

hadoop 将HDFS上多个小文件合并到SequenceFile里的更多相关文章

随机推荐

热门专题