现实环境中,经常遇到一个问题就是想使用多个Reduce,可是迫于setup和cleanup在每个Reduce中会调用一次,仅仅能设置一个Reduce,无法是实现负载均衡. 问题,假设要在reduce中输出两种文件,一种是标志,还有一种是正常业务数据,实现方案有三种: (1)设置一个reduce,在reduce中将数据封装到一个集合中,在cleanup中将数据写入到hdfs中,可是假设数据量巨大,一个reduce无法充分利用资源,实现负载均衡.可是假设数据量较小,能够使用 (2)设置多文件输出,使…