mapreduce是一个运算框架,让多台机器进行并行进行运算, 他把所有的计算都分为两个阶段,一个是map阶段,一个是reduce阶段 map阶段:读取hdfs中的文件,分给多个机器上的maptask,分文件的时候是按照文件的大小分的 比如每个maptask都会处理128M的文件大小,然后有个500M的文件,就会启动ceil(500/128)个maptask 每读取文件的一行的处理,需要自己去写,注意每个maptask的处理逻辑都是一样的 处理出来的结果一定是一对key和value. mapta…