这里是大数据小白系列,这是本系列的第四篇,来看一个真实世界Hadoop集群的规模,以及我们为什么需要Hadoop Federation. 首先,我们先要来个直观的印象,这是你以为的Hadoop集群: 这是真实世界的Hadoop集群: 因为,NameNode(下称NN)中的元数据记录了各个数据块的存储位置. 所以,元数据的大小,与数据块的数量成正比. 当集群存储的数据规模到达一定程度时,NN将成为整套系统中的瓶颈所在.NN的存储能力是有限的,不管是磁盘存储还是内存存储. 为了解决这个问题,HDFS…