Hadoop存档 每个文件均按块方式存储,每个块的元数据存储在namenode的内存中,因此Hadoop存储小文件会非常低效.因为大量的小文件会耗尽namenode中的大部分内存.存储小文件所需的磁盘容量和存储这些文件原始内容所需要的磁盘空间相比不会增多.例如,一个1MB的文件以大小为128MB的块存储,使用的是1MB的磁盘空间,而不是128MB.Hadoop存档文件或HAR文件,是一个更高效的文件存档工具,它将文件存入HDFS块,在减少namenode内存使用的同事,允许对文件进行透明地访问.…