一.概述 小文件是指文件size小于HDFS上block大小的文件.这样的文件会给hadoop的扩展性和性能带来严重问题.首先,在HDFS中,任何block,文件或者目录在内存中均以对象的形式存储,每个对象约占150byte,如果有1000 0000个小文件,每个文件占用一个block,则namenode大约需要2G空间.如果存储1亿个文件,则namenode需要20G空间.这样namenode内存容量严重制约了集群的扩展. 其次,访问大量小文件速度远远小于访问几个大文件.HDFS最初是为流式访…