这几天学习了MapReduce,我参照资料,自己又画了两张MapReduce的架构图. 这里我根据架构图以及对应的源码,来解释一次分布式MapReduce的计算到底是怎么工作的. 话不多说,开始! 首先,结合我画的架构图来进行解释. 上图是MapReduce的基本运行逻辑.把图从中间切分,左边为Map任务,右边为Reduce任务.Map的输出是Reduce的输入.因此Map执行完毕Reduce才能执行,两者的执行顺序是一个线性关系,即输入输出的关系为:HDFS->Map->Reduce-&g…