hadoop mapreduce求解有序TopN（高效模式）

1、在map阶段对数据先求解改分片的topN，到reduce阶段再合并求解一次，求解过程利用TreeMap的排序特性，不用自己写算法。

2、样板数据，类似如下

1 	13682846555	192.168.100.12	www.qq.com	1938	2910	200

3、code

3.1 mapper

public class TopNMapper extends Mapper<LongWritable, Text, FlowBeanSorted,Text> {

    // 定义一个TreeMap作为存储数据的容器（天然按key排序）

    private TreeMap<FlowBeanSorted, Text> flowMap = new TreeMap<>();

    private enum Counters {LINES}

    @Override

    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {

        context.getCounter(Counters.LINES).increment(1);

        String lines = value.toString();

        String[] fields = lines.split("\\s+");

        String phoneNumber = fields[1];

        long upFlow = Long.parseLong(fields[fields.length-3]);

        long downFlow = Long.parseLong(fields[fields.length-2]);

        FlowBeanSorted k = new FlowBeanSorted();

        Text v = new Text();

        k.setAll(upFlow,downFlow);

        v.set(phoneNumber);

        flowMap.put(k,v);

        //限制TreeMap的数据量，超过10条就删除掉流量最小的一条数据

        if (flowMap.size() > 10) {

//        flowMap.remove(flowMap.firstKey());

            flowMap.remove(flowMap.lastKey());

        }

    }

    @Override

    protected void cleanup(Context context) throws IOException, InterruptedException {

        Iterator<FlowBeanSorted> bean = flowMap.keySet().iterator();

        while (bean.hasNext()) {

            FlowBeanSorted k = bean.next();

            context.write(k, flowMap.get(k));

        }

    }

}

3.2 reducer

public class TopNReducer extends Reducer<FlowBeanSorted, Text,Text,FlowBeanSorted> {

    // 定义一个TreeMap作为存储数据的容器（天然按key排序）

    TreeMap<FlowBeanSorted, Text> flowMap = new TreeMap<>();

    @Override

    protected void reduce(FlowBeanSorted key, Iterable<Text> values, Context context) throws IOException, InterruptedException {

        for (Text value : values) {

            FlowBeanSorted bean = new FlowBeanSorted();

            bean.setAll(key.getUpFlow(),key.getDownFlow());

            // 1 向treeMap集合中添加数据

            flowMap.put(bean, new Text(value));

            // 2 限制TreeMap数据量，超过10条就删除掉流量最小的一条数据

            if (flowMap.size() > 10) {

                // flowMap.remove(flowMap.firstKey());

                flowMap.remove(flowMap.lastKey());

            }

        }

    }

    @Override

    protected void cleanup(Context context) throws IOException, InterruptedException {

//        遍历集合，输出数据

        Iterator<FlowBeanSorted> it = flowMap.keySet().iterator();

        while (it.hasNext()) {

            FlowBeanSorted v = it.next();

            context.write(new Text(flowMap.get(v)), v);

        }

    }

}

3.3 driver

public class TopNDriver {

    public static void main(String[] args) throws Exception {

        args  = new String[]{"input/phone*.txt","output/"};

        //获取配置信息，或者job对象实例

        Configuration configuration = new Configuration();

        Job job = Job.getInstance(configuration);

        //指定本程序的jar包所在的本地路径

        job.setJarByClass(TopNDriver.class);

        //指定本业务job要使用的mapper/Reducer业务类

        job.setMapperClass(TopNMapper.class);

        job.setReducerClass(TopNReducer.class);

        //指定mapper输出数据的kv类型

        job.setMapOutputKeyClass(FlowBeanSorted.class);

        job.setMapOutputValueClass(Text.class);

        //指定最终输出的数据的kv类型

        job.setOutputKeyClass(Text.class);

        job.setOutputValueClass(FlowBeanSorted.class);

        //指定job的输入原始文件所在目录

        FileInputFormat.setInputPaths(job, new Path(args[0]));

        FileOutputFormat.setOutputPath(job, new Path(args[1]));

        Path outPath = new Path(args[1]);

        FileSystem fs = FileSystem.get(configuration);

        if(fs.exists(outPath)){

            fs.delete(outPath,true);

        }

        //将job中配置的相关参数，以及job所用的java类所在的jar包， 提交给yarn去运行

        boolean result = job.waitForCompletion(true);

        System.exit(result ? 0 : 1);

    }

}

hadoop mapreduce求解有序TopN（高效模式）的更多相关文章

hadoop mapreduce求解有序TopN
利用hadoop的map和reduce排序特性实现对数据排序取TopN条数据. 代码参考:https://github.com/asker124143222/wordcount 1.样本数据,假设是订 ...
Hadoop之MapReduce的两种任务模式
http://qianshangding.iteye.com/blog/2259421 Hadoop之MapReduce的两种任务模式
Hadoop Mapreduce分区、分组、二次排序过程详解[转]
原文地址:Hadoop Mapreduce分区.分组.二次排序过程详解[转]作者: 徐海蛟教学用途 1.MapReduce中数据流动 (1)最简单的过程: map - reduce (2) ...
hadoop MapReduce 笔记
1. MapReduce程序开发步骤编写map 和 reduce 程序–> 单元测试 -> 编写驱动程序进行验证-> 本地数据集调试 -> 部署到集群运行用 ...
hadoop MapReduce Yarn运行机制
原 Hadoop MapReduce 框架的问题原hadoop的MapReduce框架图从上图中可以清楚的看出原 MapReduce 程序的流程及设计思路: 首先用户程序 (JobClient) ...
Hadoop MapReduce例子-新版API多表连接Join之模仿订单配货
文章为作者原创,未经许可,禁止转载. -Sun Yat-sen University 冯兴伟一. 项目简介: 电子商务的发展以及电商平台的多样化,类似于京东和天猫这种拥有过亿用户的在线购 ...
使用Python实现Hadoop MapReduce程序
转自:使用Python实现Hadoop MapReduce程序英文原文:Writing an Hadoop MapReduce Program in Python 根据上面两篇文章,下面是我在自己的 ...
四种方案：将OpenStack私有云部署到Hadoop MapReduce环境中
摘要:OpenStack与Hadoop被誉为继Linux之后最有可能获得巨大成功的开源项目.这二者如何结合成为更猛的新方案?业内给出两种答案:Hadoop跑在OpenStack上或OpenStack部 ...
Hadoop MapReduce开发最佳实践（上篇）
body{ font-family: "Microsoft YaHei UI","Microsoft YaHei",SimSun,"Segoe UI& ...

随机推荐

【Unity】关于Package Manager 无限加载的问题(Loading Packages)，以及可能的解决办法（待补充。）
·版本:2019.1.8f 官方论坛对于此问题的讨论:地址>Package Manager 许多人都遇到了这个问题,但是无法定位问题出在哪里.官方技术人员提供了一个名为 Package Mana ...
ArcGIS api for JavaScript 3.27 FindTask查询功能
在ArcGIS API中查询功能是经常使用的,常用的三个查询分别是FindTask,QueryTask,IdentifyTask.它们各自都有自己的特点. 查询功能分为属性查询和空间查询 FindTa ...
iOS引导页（镂空效果）
推荐使用SDK:pod 'EAFeatureGuideView' 温馨提示:(引导的图片图标需要私人订制的可以用自己的,让UI提供) 参考链接:https://www.jianshu.com/p/c9 ...
cell右侧的状态（accessoryType）
Cell.accessoryType = UITableViewCellAccessoryDisclosureIndicator; Cell.accessoryType = UITableViewCe ...
OpenCV:图像的普通二值化
首先我们来看看图像二值化的过程,opencv一共有好几种不同的二值化算法可以使用,一般来说图像的像素,亮度等条件如果超过了某个或者低于了某个阈值,就会恒等于某个值,可以用于某些物体轮廓的监测: 导包: ...
安装上传下载插件,jdk及redis
安装rz sz (1)编译安装root 账号登陆后,依次执行以下命令:cd /tmpwget http://www.ohse.de/uwe/releases/lrzsz-0.12.20.tar.gzt ...
Java中如何判断一个字符是否是字母或数字
使用Java中Character类的静态方法: Character.isDigit(char c) //判断字符c是否是数字字符,如‘1’,‘2’,是则返回true,否则返回false Chara ...
python升级带来的yum异常(解决错误File "/usr/bin/yum", line 30 except KeyboardInterrupt, e:)
解决错误File "/usr/bin/yum", line 30 except KeyboardInterrupt, e: 错误: 原因: 这是因为yum采用python作为命令解 ...
Python语法速查： 5. 运算符、math模块、表达式
返回目录 (1)一些较容易搞错的运算符一般简单的如加减乘除之类的运算符就不写了,这里主要列些一些容易搞错或忘记的运算符.运算符不仅仅只有号,有一些英文单词如 in, and 之类,也是运算符,并不是 ...
题解：A
A (a.pas/c/cpp) [题目描述] 对于给定的一个正整数n, 判断n是否能分成若干个正整数之和 (可以重复) , 其中每个正整数都能表示成两个质数乘积. [输入描述] 第一行一个正整数 q, ...

hadoop mapreduce求解有序TopN（高效模式）

hadoop mapreduce求解有序TopN（高效模式）的更多相关文章

随机推荐

热门专题