Pandas系列之入门篇--HDF5 简介 HDF5(层次性数据格式)作用于大数据存储,其高效的压缩方式节约了不少硬盘空间,同时也给查询效率带来了一定的影响, 压缩效率越高,查询效率越低.pandas 0.20.1之后的版本默认选用blosc压缩,跟bzip2相比,其间做了一个小测试,10000 条数据,bzip2的压缩率是blosc的30倍,而查询效率blosc却是bzip2的8倍.至于项目中选用哪种压缩方式,需要看具体需求. 回顾上一节<Pandas系列之入门篇> 上一节提到用hdf5作为…