MapReduce Join 对两份数据data1和data2进行关键词连接是一个很通用的问题,如果数据量比较小,可以在内存中完成连接. 如果数据量比较大,在内存进行连接操会发生OOM.mapreduce join可以用来解决大数据的连接. 1 思路 1.1 reduce join 在map阶段, 把关键字作为key输出,并在value中标记出数据是来自data1还是data2.因为在shuffle阶段已经自然按key分组,reduce阶段,判断每一个value是来自data1还是data2,在…