bBHadoop数据压缩 概述 运行hadoop程序时,I/O操作.网络数据传输.shuffle和merge要花大量的时间,尤其是数据规模很大和工作负载密集的情况下,这个时候,使用数据压缩可以提高效率 压缩策略和原则 压缩是提高Hadoop运行效率的一种策略 通过对Mapper.Reducer运行过程的数据进行压缩,减少磁盘IO,提高运行速度 压缩原则 运算密集型的job,少用压缩 IO密集型的job,多用压缩 总结:当面对一些较大IO量的数据是,使用压缩会提高效率 Hadoop支持的压缩编码…