问题描述 我们的数据分析平台是单一的Map/Reduce过程,由于半年来不断地增加需求,导致了问题已经不是那么地简单,特别是在Reduce阶段,一些大对象会常驻内存.因此越来越顶不住压力了,当前内存问题已经是最大的问题,每个Map占用5G,每个Reduce占用9G!直接导致当数据分析平台运行时,集群处于资源匮乏状态. 因此,在不改变业务数据计算的条件下,将单一的Map/Reduce过程分解成2个阶段.这个时候,需求就相对来说比较复杂,将第一阶段的Reduce结果输出至HDFS,作为第二阶段的输入…