当数据集的大小超过一台独立的物理计算机的存储能力时,就有必要对它进行分区(partition)并存储到若干台单独的计算机上.管理网络中跨多台计算机存储的文件系统成为分布式文件系统(distributed filesystem).该系统架构于网络之上,势必会引入网络编程的复杂性,因此分布式文件系统比普通磁盘文件系统更为复杂. HDFS的设计 HDFS以流式数据访问模式来存储超大文件,运行于商用硬件集群上.1. 超大文件超大文件在这里指具有几百MB.几百GB甚至几百TB大小的文件.2. 流式数据访问…