数据正确性检测的技术,通常使用checksum,在数据进行传输前,计算一个checksum值,传输到目标地之后,再根据新的文件计算checksum值,如果不匹配,则说明数据损坏或被改变.只能校验,不提供修复方法. 建议使用ECC内存,提高校验正确率,但这又和hadoop的设计初衷违背? 常见的错误侦测码是CRC-32,HADOOP的ChecksumFileSystem 使用这个编码. codec是对压缩解压的实现,在hadoop里面,代表着实现了CompressionCodec 接口. 例如Gz…