上一篇我们熟悉了hadoop,本篇讲解一下hadoop第一个核心HDFS. 一.概述 HDFS是一个分布式文件存储系统,以流式数据访问模式存储超大文件,将数据分块存储到一个商业硬件集群内的不同机器上,通过目录树来定位文件,由多台服务器联合起来实现其功能,集群中的服务器有各自的角色.HDFS的设计适合一次写入,多次读出的场景,且不支持文件的修改.适合用来做数据分析,不适合做网盘应用. 二.优缺点 1.优点: *高容错性.数据自动保存多个副本,通过增加副本的形式,来提高容错性.当某一副本丢失后可以自…