一.Hadoop的数据压缩 1.概述 在进行MR程序的过程中,在Mapper和Reducer端会发生大量的数据传输和磁盘IO,如果在这个过程中对数据进行压缩处理,可以有效的减少底层存储(HDFS)读写的字节数,,并且通过减少Map和Reduce阶段数据的输入输出来提升MR程序的速度,提高了网络带宽和磁盘空间的效率: 数据压缩可以有效的节省资源,它是MR程序的优化策略之一: 数据压缩会增加cpu的计算负担,但是能很大程度较少磁盘的IO.由于数据压缩占用cpu资源很小,总体还是利大于弊的. 2.数据…