本文结合hadoop : the definitive guide精心而作,包含作者的心血,希望可以帮助大家理解一点hdfs的皮毛,足矣.(charles@xingbod.cn) hadoop本身自带原始的数据IO操作,包括数据处理的完整,压缩等等.但是面对大数据集,还是需要特殊考虑,还包含hadoop tools中的一些组件,例如序列化框架,硬盘数据存储结构等. 因为数据要在HDFS中分散多处,那么,数据其实不应该有丢失或者损坏.但是,每个磁盘或者网络IO都有可能对读写操作引入错误,但数据变得…