我们在使用hadoop streaming的时候默认streaming的map和reduce的separator不指定的话,map和reduce会根据它们默认的分隔符来进行排序 map.reduce:默认的分隔符是\t(读入数据) 得到的结果都是按第一个分隔符排序去重后的结果 假设我们的有这么一列数据:USER IP DIR 我们想得到某一个用户的某一个ip的一系列dir,那我们应该怎么办呢? 这里我们就会用到streaming map和reduce的separator来指定key来进行排序和去
Hadoop Streaming Hadoopstreaming is a utility that comes with the Hadoop distribution. The utilityallows you to create and run Map/Reduce jobs with any executable or script asthe mapper and/or the reducer. For example: $HADOOP_HOME/bin/hadoop jar $H