Hadoop的数据压缩

一、Hadoop的数据压缩

　　1.概述

　　　　在进行MR程序的过程中，在Mapper和Reducer端会发生大量的数据传输和磁盘IO，如果在这个过程中对数据进行压缩处理，可以有效的减少底层存储(HDFS)读写的字节数，，并且通过减少Map和Reduce阶段数据的输入输出来提升MR程序的速度，提高了网络带宽和磁盘空间的效率；

　　　　数据压缩可以有效的节省资源，它是MR程序的优化策略之一；　　

　　　　数据压缩会增加cpu的计算负担，但是能很大程度较少磁盘的IO。由于数据压缩占用cpu资源很小，总体还是利大于弊的。

　　2.数据压缩使用原则：

　　　　运算密集型的任务尽量少用压缩、IO密集型的任务多用压缩。

　　3.MapReduce支持的压缩编码

hadoop中的压缩格式	是否自带	文件的拓展名	是否可以切分
DEFAULT	是	.default	否
Gzip	是	.gz	否
bzip2	是	.bz2	是
LZO	否	.lzo	是
Snappy	否	.snappy	否

　　4.编码解码器

DEFAULT	org.apache.hadoop.io.compress.DefaultCodeC
Gzip	org.apahce.hadoop.io.compress.GzioCodeC
bzop2	org.apache.hadoop.io.compress.bzio2CodeC
LZO	com.apache.hadoop.compression.lzoCodeC
Snappy	org.apache.hadoop.io.compress.SnappyCodeC

　　5.压缩性能

压缩格式	原始文件	压缩后文件	压缩速度	解压速度
Gzip	8.3G	1.8G	17.5MB/s	58MB/s
bzip2	8.3G	1.1G	2.4MB/s	9.5MB/s
LZO	8.3G	2.9G	49MB/s	74.6MB/s

二、Hadoop压缩的使用

　　1.应用在WordCount程序中

　　　1）在map端对数据进行压缩

　　　　在Driver类中的获取job对象后加入配置信息：

//开启map端的输入压缩

conf.setBoolean("mapreduce.map.output.compress",true);

//设置压缩方法

//默认

conf.setClass("mapreduce.map.output.compress.codec",DefaultCodeC.class,CompressionCodec.class);

//Bzip2

conf.setClass("mapreduce.mapt.output.compress.codec",Bzip2Codec.class,CompressionCode.class);

//LZO

conf.setClass("mapreduce.map.output.compress.codec".LZOCodec.class,CompressionCodec.class);

　　　　注意：在map端开启压缩并不能从结果文件中看到结果的改变，只要程序运行成功就代表设置没问题！

　　　2）在reduce端对数据进行压缩

　　　　在设置reduce输出数据类型之后加入配置信息：

//开启reduce端的输出压缩

FileOutputFormat.setCompressOutput(job,true);

//设置压缩方法

//默认

FileOutputFormat.setOutputCompressorClass(job,DefaultCodec.class);

//Bzip2

FileOutputFormat.setOutputCompressorClass(job,Bzip2Codec.class);

//Gzip

FileOutputFormat.setOutputCompressorClass(job,GzipCodec.class);

　　　　三种选择一种即可，可以看到对应的结果文件看到被压缩的结果文件。

　　2.自定义压缩方法

/**

 * @author: PrincessHug

 * @date: 2019/4/8, 9:49

 * @Blog: https://www.cnblogs.com/HelloBigTable/

 */

public class TestCompress {

    public static void main(String[] args) throws IOException, ClassNotFoundException {

        Compress("G:\\weblog.log","org.apache.hadoop.io.compress.BZip2Codec");

    }

    //自定义压缩方法

    private static void Compress(String fileName,String method) throws IOException, ClassNotFoundException {

        //获取输入流

        FileInputStream fis = new FileInputStream(new File(fileName));

        //通过反射获取压缩方法并初始化

        Class cName = Class.forName(method);

        CompressionCodec codec = (CompressionCodec) ReflectionUtils.newInstance(cName, new Configuration());

        //定义输出流

        FileOutputStream fos = new FileOutputStream(new File(fileName + codec.getDefaultExtension()));

        //创建压缩输出流

        CompressionOutputStream cos = codec.createOutputStream(fos);

        //流的拷贝

        IOUtils.copyBytes(fis,cos,2*1024*1024,false);

        //关闭资源

        fis.close();

        cos.close();

        fos.close();

    }

}

Hadoop的数据压缩的更多相关文章

hive 压缩全解读(hive表存储格式以及外部表直接加载压缩格式数据)；HADOOP存储数据压缩方案对比（LZO,gz，ORC）
数据做压缩和解压缩会增加CPU的开销,但可以最大程度的减少文件所需的磁盘空间和网络I/O的开销,所以最好对那些I/O密集型的作业使用数据压缩,cpu密集型,使用压缩反而会降低性能. 而hive中间结果 ...
hadoop之数据压缩与数据格式
* 注:本文原创,转载请注明出处,本人保留对未注明出处行为的责任追究. a.数据压缩优点: 1.节省本地空间 2.节省带宽缺点: 花时间 1.MR中允许进行数据压缩的地方有三个: 1)input起 ...
【Hadoop】Hadoop的数据压缩方式
概述压缩技术能够有效减少底层存储系统(HDFS)读写字节数.压缩提高了网络带宽和磁盘空间的效率.在Hadoop下,尤其是数据规模很大和工作负载密集的情况下,使用数据压缩显得非常重要.在这种情况下 ...
hadoop2.2编程: 数据压缩
本文主要讨论hadoop的数据压缩与解压缩代码的书写 Compressing and decompressing streams with CompressionCodec import org.ap ...
HADOOP与HDFS数据压缩格式
1.cloudera 数据压缩的一般准则一般准则是否压缩数据以及使用何种压缩格式对性能具有重要的影响.在数据压缩上,需要考虑的最重要的两个方面是 MapReduce 作业和存储在 HBase 中的 ...
Hadoop（八）Hadoop数据压缩与企业级优化
一 Hadoop数据压缩 1.1 概述压缩技术能够有效减少底层存储系统(HDFS)读写字节数.压缩提高了网络带宽和磁盘空间的效率.在Hadood下,尤其是数据规模很大和工作负载密集的情况下,使用数据 ...
Hadoop Hive概念学习系列之hive的数据压缩（七）
Hive文件存储格式包括以下几类: 1.TEXTFILE 2.SEQUENCEFILE 3.RCFILE 4.ORCFILE 其中TEXTFILE为默认格式,建表时不指定默认为这个格式,导入数据时会直 ...
Hadoop数据压缩技术
一.Hadoop数据压缩及其优缺点 1.压缩技术的好处与坏处好处: 减少存储磁盘空间降低IO(网络的IO和磁盘的IO) 加快数据在磁盘和网络中的传输速度,从而提高系统的处理速度. 坏处: 由于使用 ...
Hadoop优化之数据压缩
bBHadoop数据压缩概述运行hadoop程序时,I/O操作.网络数据传输.shuffle和merge要花大量的时间,尤其是数据规模很大和工作负载密集的情况下,这个时候,使用数据压缩可以提高效率 ...

随机推荐

[转载]再谈PostgreSQL的膨胀和vacuum机制及最佳实践
本文转载自 www.postgres.cn 下的文章: 再谈PostgreSQL的膨胀和vacuum机制及最佳实践http://www.postgres.cn/news/viewone/1/390 还 ...
将Python3导出为exe程序
一.pyinstaller简介 Python是一个脚本语言,被解释器解释执行.它的发布方式: .py文件:对于开源项目或者源码没那么重要的,直接提供源码,需要使用者自行安装Python并且安装依赖的各 ...
es6中的class的使用
---恢复内容开始--- es5中生成实例对象的传统方法是通过构造函数: function Point(x,y){ this.x = x; this.y = y; } Point.prototype. ...
shell 批量修改较长字符串字符串内容之间更换位置
cat 1.txt src='http://img2.tgbusdata.cn/v2/thumb/jpg/MkY5Myw2NTUsMzAzLDksMywxLC0xLDAscms1MCwxOTIuMTY ...
Python appium搭建app自动化测试环境
appium做app自动化测试,环境搭建是比较麻烦的. 也是很多初学者在学习app自动化之时,花很多时间都难跨越的坎. 但没有成功的环境,就没有办法继续后续的使用. 在app自动化测试当中,我们主要是 ...
js一些格式化
/* 格式化金额 */function formatAmount(s, n) { n = n > 0 && n <= 20 ? n : 2; s = p ...
pyQt5不让进度条卡住
这里我们用一个更新程序做示例, 下载文件的过程中让进度条实时显示下载进度. 如果下载和更新进度条的工作都放在一个线程中,会出现进度条卡顿的情况. Qt中正确的做法是把界面刷新和工作任务交给不同的线程去 ...
Spring ES
elasticsearchTemplate 和 ElasticsearchRepository JPA中有个ElasticsearchRepository可以做Elasticsearch的相关增删改查 ...
day09 详解内存管理机制
""" 今日内容:详解内存管理 1.引用计数在内存中为了对变量的值进行标记从而方便管理,采用引用计数的方式对变量进行标记. (1)如果变量的值被引用一次,那么该变量的引 ...
20175315 实验二《Java面向对象程序设计》实验报告
20175315 实验二<Java面向对象程序设计>实验报告一.实验内容及步骤 1.初步掌握单元测试和TDD 单元测试任务一:三种代码用程序解决问题时,要学会写以下三种代码: 伪代码 ...

Hadoop的数据压缩

Hadoop的数据压缩的更多相关文章

随机推荐

热门专题