Hadoop自带一套原子操作用于数据的I/O操作. 如果系统中需要处理的数据量达到Hadoop的处理极限时,数据被损害的概率还是很高的 检测数据是否被损害的常见措施是,在数据第一次被引进系统时,计算校验和(checksum),并在数据通过一个不可靠的通道进行传输时,再次计算校验和. 校验和也是可能损坏的,但由于校验和比数据小得多,所以损坏的可能性非常小 HDFS会对写入的所有数据计算校验和,并在读取数据时验证校验和. 默认情况下为512个字节计算校验和,由于CRC-32校验和是4个字节,所以存储…