Hadoop代码测试版:Hadoop2.4 原理:携带MR该程序随机抽样提取前的输入数据,样本分类,然后,MR该过程的中间Partition此值用于当样品排序分组数据.这使得可以实现全球排名的目的. 难度:假设Hadoop全局排序,那么要求Mapper的输入.输出的key不变才干够,由于在源代码InputSampler中提供的随机抽取的数据是输入数据最原始的key,例如以下代码(line:225): for (int i = 0; i < splitsToSample || (i < spli…