在Map端 数据从Map中写入环形缓冲区,进行分区,分区时达到80%后溢出写入到磁盘,这几步同步进行 中间有个Shuffle过程 Reduce端 执行完Map 后到Reduce内存中,进行sort和merge,生成溢出文件,很多的溢出文件合并(一次合并10个),Reduce文件读取,然后做处理. 再详细一点: 1InputFormat从HDFS文件系统加载文件,然后将数据集逻辑上切分,切成多个Split 2RecordReader(RR)把分片的文件读取出来,然后输出成K-V的形式,这个结果会作…