hdfs中的block是分布式存储的最小单元,类似于盛放文件的盒子,一个文件可能要占多个盒子,但一个盒子里的内容只可能来自同一份文件.假设block设置为128M,你的文件是250M,那么这份文件占3个block(128+128+2).这样的设计虽然会有一部分磁盘空间的浪费,但是整齐的block大小,便于快速找到.读取对应的内容.(p.s. 考虑到hdfs冗余设计,默认三份拷贝,实际上3*3=9个block的物理空间.) spark中的partition 是弹性分布式数据集RDD的最小单元,RD…