1.流式数据访问 HDFS的构建思想是这样的:一次写入,多次读取是最高效的访问模式.数据集通常有数据源生成或从数据源复制而来,接着长时间在此数据集上进行各类分析.每次分析都将设计数据集的大部分数据甚至全部,因此读取整个数据集的时间延迟比读取第一条数据的时间延迟更重要. 2.关于时间延迟的数据访问 要求低时间延迟数据访问的应用,例如几十毫秒的范围,不适合在HDFS上运行,记住,HDFS是为高数据吞吐量应用优化的,这可能会以高时间延迟为代价.目前对于低时间延迟的数据访问应用,HBase是更好的选择.