学习Hadoop,两个东西肯定是绕不过,MapReduce和HDFS,上一篇博客介绍了MapReduce的处理流程,这一篇博客就来学习一下HDFS. HDFS是一个分布式的文件系统,就是将多台机器的存储当做一个文件系统来使用,因为在大数据的情景下,单机的存储量已经完全不够用了,所以采取分布式的方法来扩容,解决本地文件系统在文件大小.文件数量.打开文件数等的限制问题.我们首先来看一下HDFS的架构 HDFS架构 从上图可以看到,HDFS的主要组成部分为Namenode.Datanodes.Clie…