参考 hadoop权威指南 第六章,6.4节 背景 hadoop,mapreduce就如MVC,spring一样现在已经是烂大街了,虽然用过,但是说看过源码么,没有,调过参数么?调过,调到刚好能跑起来.现在有时间看看hadoop权威指南,感觉真是走了许多弯路. MR流程 参数 共同影响 io.sort.factor 多路合并允许的最大输入路数.设成较大的值可以减少合并轮数,从而减少磁盘读写次数. map端 io.sort.mb map端输出缓冲区大小,map输出先放到这里然后在通过排序和part