mr spark storm 都是分布式计算框架,他们之间不是谁替换谁的问题,是谁适合做什么的问题. mr特点,移动计算,而不移动数据. 把我们的计算程序下发到不同的机器上面运行,但是不移动数据. 每一个split 是由一个map线程,还是map进程进行处理? 肯定的是,他们之间是并发的. mr的shuffle阶段,是比较难于理解的,不太便于我们去控制他,我们只能通过程序,控制其中的一部分.shuffle阶段,大多数都是有MR框架自动完成的. 溢写到磁盘中:map执行完成,结果肯定是放在内存中…