Hadoop 作为MR 的开源实现,一直以动态运行解析文件格式并获得比MPP数据库快上几倍的装载速度为优势.不过,MPP数据库社区也一直批评Hadoop由于文件格式并非为特定目的而建,因此序列化和反序列化的成本过高[7].本文介绍Hadoop目前已有的几种文件格式,分析其特点.开销及使用场景.希望加深读者对Hadoop文件格式及其影响性能的因素的理解. Hadoop 中的文件格式 1 SequenceFile SequenceFile是Hadoop API 提供的一种二进制文件,它将数据以<ke…