一. hdfs设计的动机 为大规模分布式计算准备的分布式文件系统,并非实时性要求很高的文件系统. 二. 设计的取舍 1. 因为要求有高吞吐量,所以牺牲读取文件的实时性,实时性要求高的分布式文件系统可以选择hbase 2. 使用廉价的机器,所以任意一个存储节点可能会挂掉,将之视为hadoop的常态 3. 流式存储,一次写入,多次读取进行数据迭代,写入也尽量采取在文件的末尾进行追加的方式,在任意一处写入数据的操作代价很高,尽量不要做 4. 不鼓励使用大量的小文件处理,每个小文件都需要都有一个元数据来…