一.HDFS是什么 HDFS是hadoop集群中的一个分布式的我文件存储系统.他将多台集群组建成一个集群,进行海量数据的存储.为超大数据集的应用处理带来了很多便利. 和其他的分布式文件存储系统相比他有以下优点: 高容错:即在HDFS运行过程中,若其中一台机器宕机了,也无需担心数据的丢失,因为在存储的过程中进行了备份,备份数量可以选择,这个将在后面的博客说明. 成本低:即使配置条件不足的情况下,都可以搭建一个HDFS,对硬件的要求不高. 易扩展:若出现集群容量不足的情况,直接添加机器,进行配置即可…