一部编程发展史就是一部程序员偷懒史,MapReduce(下称MR)同样是程序员们用来偷懒的工具. 来了一份大数据,我们写了一个程序准备分析它,需要怎么做? 老式的处理方法不行,数据量太大时,所需的时间无法忍受,所以,必须并行计算.好比1000块砖,1个人搬需要1小时,10个人同时搬,只需要6分钟. 不过进行并行计算,面临几个细思头大问题: 如何切分数据 如何处理部分任务失败 如何对多路计算的结果进行汇总 不过不用担心,世界就是这样的,少部分人发明创造工具,大部分人使用工具.总有聪明人在合适的时候