P3-P4: 目前遇见的问题很简单:硬盘容量不断提升,1TB的已成为主流,然而数据传输速度从1990年的4.4MB/s仅上升到当前约100MB/s 读取一个1TB的硬盘数据需要耗时至少2.5个小时.写入数据则会消耗更多时间.解决方法是从多个硬盘上读取,试想,若当前有100个盘,每个盘存储1%数据,则并行读取仅需2minutes则可读取完所有的数据. 与此同时,并行读写数据带来了几个问题: 1.某个硬件故障 - 采用数据备份机制 2.分析任务需要所有节点共同完成,结果正确性 - MapReduc…