HDFS全称Hadoop Distributed File System,看名字就知道是Hadoop生态的一个组件,它是一个分布式文件系统. 它的出现解决了独立机器存储大数据集的压力,它将数据集进行切分,存储在若干台计算机上. HDFS 的特点与应用场景 适合存储大文件 HDFS 支持 GB 级别甚至 TB 级别的文件,它会把大文件切分成若干个块存储在不同的节点上,在进行大文件读写时采用并行的方式提高数据的吞吐量. 容错性高 HDFS有多副本机制,它会自动保存副本到不同的节点.即使有一台节点宕机…