看过好多本hadoop的书,对整个过程始终存在一些疑问,今天终于搞清楚了.立个low-flag. 整体架构好复杂的感觉?其实不复杂 整体架构,namenode/metanode负责维护所有的元数据,datanode负责实际的物理存储,同一份数据datanode上必定多个副本,从而保证高可用. hdfs只是个文件系统,有那么重要吗? hdfs,最核心组件,高可用,不适合处理碎片文件.所有存储相关都是hdfs的职责范围. mapreduce感觉很简单,但是具体背后的逻辑是什么? mapreduce,…