前言 列式文件,顾名思义就是按列存储到文件,和行式存储文件对应.保证了一列在一个文件中是连续的.下面从parquet常见术语,核心schema和文件结构来深入理解.最后通过java api完成write和read. 术语 block parquet层面和row group是一个意思 row group 逻辑概念,用于对row进行分区.由数据集中每个column的column chunk组成.是读写过程中的缓存单元,一般在hdfs上推荐一个block为1GB,一个HDFS文件1个bolock co