1.用于map的输入,先将输入数据切分成相等的分片,为每一个分片创建一个map worker,这里的切片大小不是随意订的,一般是与HDFS块大小一致,默认是64MB,一个节点上存储输入数据切片的最大size就是HDFS的块大小,当设置的切片size大于HDFS块大小,会引起节点之间的传输,占用带宽. 2.map worker调用用户编写的map函数对每个分片进行处理,并且将处理结果输出到本地存储(非HDFS) 3.对map的输出进行combiner操作,这里的的combiner主要是减少map与…