HDFS的NameNode堆内存估算

NameNode堆内存估算

在HDFS中，数据和元数据是分开存储的，数据文件被分割成若干个数据块，每一个数据块默认备份3份，然后分布式的存储在所有的DataNode上，元数据会常驻在NameNode的内存中，而且随着数据量的增加，在NameNode中内存的元数据的大小也会随着增加，那么这个时候对NameNode的内存的估算就变的非常的重要了。

这里说的内存就是指NameNode所在JVM的堆内存

NameNode内存数据结构非常丰富，除了我们前面讲到的Namespace tree和BlocksMap外，其实还包括如LeaseManager/SnapShotManager/CacheManager/NetworkTopology等管理的数据，但是这些管理数据占用的内存非常的小，我们在估算NameNode内存的时候一般都忽略这些数据所占内存大小。所以在NameNode内存中，主要的内存分别被Namespace tree和BlocksMap占有，那么我们现在只要估算Namespace tree和BlocksMap所占内存即可。

我们在Namespace tree中估算了假设HDFS目录和文件数分别为1亿，Block总量在1亿情况下，整个Namespace在JVM中内存使用情况：

Total(Directory) = (8 + 72 + 80) ∗ 100M + 8 ∗ num(total children)
Total(Files) = (8 + 72 + 56) ∗ 100M + 8 ∗ num(total blocks)
内存总大小是：Total(Directory) + Total(Files) = (8 + 72 + 80) ∗ 100M + 8 * 200M + (8 + 72 + 56) ∗ 100M + 8 * 100M = 31.25G

我们在BlocksMap中估算了假设集群中共1亿Block，NameNode可用内存空间固定大小128GB，则BlocksMap占用内存情况：

BlocksMap直接内存大小 + (Block直接内存大小 + BlockInfoContiguous直接内存大小) * 100M + LightWeightGSet直接内存大小
28字节 + (40字节 + 136字节) * 100M + 60字节 + (2%*128G) = 19.7475GB

那么综上，假设整个HDFS集群中目录和文件数分别为1亿，Block总量在1亿情况下，NameNode可用内存空间固定大小128GB，总共占用的内存为：

Namespace tree所占内存大小 + BlocksMap所占内存大小 = 31.25G + 19.7475GB = 50.9975GB

我们上面已经提供了估算NameNode内存的方式，接下来我们再站在Files和Blocks的粒度上来估算NameNode需要的内存

Files和Blocks

在NameNode内存其实主要的就是存储着两种类型的对象，一个是File对象，一个是Block对象。

从Namespace tree中我们可以得到：

一个File对象的大小大概为：8 + 72 + 56 = 136字节
一个Directory对象的大小大概为：8 + 72 + 80 = 160字节

从BlocksMap中我们可以得到：

一个Block对象的大小大概为：40字节 + 136字节 = 176字节

为了方便计算，我们现在假设不管是File对象还是Block对象，他们每一个占用的内存大约为150字节。

假设现在有一个192MB的文件，数据块的大小是默认的128M，那么这个192MB的文件会被切分成两个数据块，一个数据块的大小是128MB，另一个数据块的大小是64MB。就会有3个对象(1个File对象和2个Block对象)存在于NameNode的内存中，占用的内存的大小大约为 3 * 150字节 = 450字节。

大文件被切分成的数据块越少，那么占用NameNode的内存就越少。比如一个128MB大小文件被切分成一个数据块的时候占用的内存大约是300字节(一个File对象和一个Block对象)；相反，128个1MB的文件在NameNode的内存中会产生256个对象(128个File对象 + 128个Block对象)，这样的话则会占用256 * 150字节 = 38400字节的内存

节 = 38400字节的内存

Replication(备份)

我们知道HDFS的数据块的默认的备份数是3，我们需要知道的是备份数的设置会影响磁盘容量而不会影响NameNode中内存容量。

如果我们现在设置备份数为1，数据块的大小是128MB。那么一个192MB的文件需要集群的192MB大小的磁盘容量和450字节的内存容量；假设有192TB的数据，这些数据包括了一百万文件和两百万数据块，那么需要集群的192TB磁盘容量和(一百万File对象 + 两百万Block对象) * 150字节 = 450MB的内存容量。

当我们设置备份数为默认备份数(即3)的时候，对于192TB的数据，需要集群的192 TB * 3 = 576 TB的磁盘容量，但是需要的NameNode中的内存容量还是450MB。所以说NameNode中的内存大小和备份数多少关系并不是太大

例子

接下来我们看下两个估算NameNode内存的例子，在看这两个例子之前，我们先记住一个经验值：每一百万个Block需要NameNode的1G内存。

上面的是一个经验值，你可以按照一百万个Block伴随着有一百万个文件和一百万个目录来进行估算下，不管怎么样，这个是一个比较靠谱的经验者，我们可以使用这个经验值进行估算我们的集群需要多少NameNode的内存

例子一

假设有1GB(1024MB)的数据，我们将它切分成不同数量文件和数据块(数据块大小为128M)，然后分别来看下NameNode需要消耗多少内存：

一个 1GB 的文件

1个File对象
8个Block对象(1024MB / 128M)

Total = 9个对象 * 150字节 = 1350 bytes

8个文件，每个文件128MB

8个File对象
8个Block对象

Total = 16个对象 * 150字节 = 2400字节

1024个1MB的文件

1024个File对象
1024个Block对象

Total = 2048个对象 * 150字节 = 307200字节

例子二

在这个例子中，我们假设有两个HDFS集群，两个集群的总磁盘容量都是4800 TB。其中集群A的数据块的备份数设置为1，集群B的数据块的备份数设置为3；两个集群的数据块大小都是128M。那么两个集群的NameNode分别需要的最大的堆内存是多少呢？

集群A：200台主机，每台主机的磁盘容量是24 TB，总共的磁盘容量大小是`4800 TB`

数据块大小是128M，备份数是1
集群的磁盘容量：200 * 24,000,000 MB = 4,800,000,000 MB (4800 TB)
每一个数据块需要的磁盘容量是：128 MB per block * 1 = 128 MB
集群可以容纳的数据块的数量：4,800,000,000 MB / 128 MB = 36,000,000 blocks

我们上面提到，一般情况下，一百万的数据块需要1G的内存，那么36,000,000的数据块就需要36GB的内存

集群B：200台主机，每台主机的磁盘容量是24 TB，总共的磁盘容量大小是`4800 TB`

数据块大小是128M，备份数是3
集群的磁盘容量：200 * 24,000,000 MB = 4,800,000,000 MB (4800 TB)
每一个数据块需要的磁盘容量是：128 MB per block * 3 = 384 MB
集群可以容纳的数据块的数量：4,800,000,000 MB / 384 MB = 12,000,000 blocks

一般情况下，一百万的数据块需要1G的内存，那么12,000,000的数据块就需要12GB的内存

集群A和集群B的磁盘存储容量都是一样的，但是集群B因为备份数的增加，使得可以存储的数据块的数量变少了，所以集群B的NameNode需要的内存相应的也变小了。