【Hadoop离线基础总结】MapReduce案例之自定义groupingComparator

MapReduce案例之自定义groupingComparator

求取Top 1的数据

需求

求出每一个订单中成交金额最大的一笔交易

订单id			商品id	成交金额

Order_0000005	Pdt_01	222.8

Order_0000005	Pdt_05	25.8

Order_0000002	Pdt_03	322.8

Order_0000002	Pdt_04	522.4

Order_0000002	Pdt_05	822.4

Order_0000003	Pdt_01	222.8

代码实现

自定义一个javaBean，命名为OrderBean

package cn.itcast.demo5;

import org.apache.hadoop.io.WritableComparable;

import java.io.DataInput;

import java.io.DataOutput;

import java.io.IOException;

public class OrderBean implements WritableComparable<OrderBean> {

    //定义orderId和price变量

    private String orderId;

    private Double price;

    /**

     * 重写compareTo方法

     *

     * @param o

     * @return

     */

    @Override

    public int compareTo(OrderBean o) {

        //先对orderId进行比较，如果相同，将它们的price放一起比较，不同就不比较

        int result = this.orderId.compareTo(o.orderId);

        //进行判断

        if (result == 0) {

            int i = this.price.compareTo(o.price);

            return -i;      //返回i求取最小值，返回-i求取最大值

        }

        return result;

    }

    @Override

    public void write(DataOutput out) throws IOException {

        out.writeUTF(orderId);

        out.writeDouble(price);

    }

    @Override

    public void readFields(DataInput in) throws IOException {

        this.orderId = in.readUTF();

        this.price = in.readDouble();

    }

    //生成get(),set()方法

    public String getOrderId() {

        return orderId;

    }

    public void setOrderId(String orderId) {

        this.orderId = orderId;

    }

    public double getPrice() {

        return price;

    }

    public void setPrice(Double price) {

        this.price = price;

    }

    //生成toString()方法

    @Override

    public String toString() {

        return orderId + "\t" + price;

    }

}

定义一个Mapper类

package cn.itcast.demo5;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.NullWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

public class GroupMapper extends Mapper<LongWritable, Text, OrderBean, NullWritable> {

    @Override

    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {

        //分割获取到的数据

        String[] split = value.toString().split("\t");

        //创建orderBean对象

        OrderBean orderBean = new OrderBean();

        //给orderId赋值

        orderBean.setOrderId(split[0]);

        //给price赋值

        orderBean.setPrice(Double.valueOf(split[2]));

        context.write(orderBean, NullWritable.get());

    }

}

自定义分区(Partition)规则

package cn.itcast.demo5;

import org.apache.hadoop.io.NullWritable;

import org.apache.hadoop.mapreduce.Partitioner;

public class GroupPartitioner extends Partitioner<OrderBean, NullWritable> {

    /**

     * 重写分区方法

     *

     * @param orderBean

     * @param nullWritable

     * @param i

     * @return

     */

    @Override

    public int getPartition(OrderBean orderBean, NullWritable nullWritable, int i) {

        //参照HashPartitioner的重写方法

        return (orderBean.getOrderId().hashCode() & Integer.MAX_VALUE) % i;

    }

}

自定义分组(groupingComparator)规则

package cn.itcast.demo5;

import org.apache.hadoop.io.NullWritable;

import org.apache.hadoop.io.WritableComparable;

import org.apache.hadoop.io.WritableComparator;

public class GroupComparator extends WritableComparator {

    //重写无参构造方法，定义反射出来的对象是OrderBean类

    public GroupComparator() {

        super(OrderBean.class, true);

    }

    @Override

    public int compare(WritableComparable a, WritableComparable b) {

        OrderBean first = (OrderBean) a;

        OrderBean second = (OrderBean) b;

        //比较orderId，如果相同就认为是同一组数据

        return first.getOrderId().compareTo(second.getOrderId());

    }

}

定义一个Reducer类

package cn.itcast.demo5;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.NullWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

public class GroupReducer extends Reducer<OrderBean, NullWritable, OrderBean, NullWritable> {

    /**

     * 直接将收到的k2,v2的值转换为k3,v3输出

     *

     * @param key

     * @param values

     * @param context

     * @throws IOException

     * @throws InterruptedException

     */

    @Override

    protected void reduce(OrderBean key, Iterable<NullWritable> values, Context context) throws IOException, InterruptedException {

        context.write(key, values.iterator().next());

    }

}

程序main函数入口

package cn.itcast.demo5;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.conf.Configured;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.NullWritable;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;

import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;

import org.apache.hadoop.util.Tool;

import org.apache.hadoop.util.ToolRunner;

public class GroupMain extends Configured implements Tool {

    @Override

    public int run(String[] args) throws Exception {

        //获取Job对象

        Job job = Job.getInstance(super.getConf(), "myGroupComparator");

        //输入数据，设置输入路径

        job.setInputFormatClass(TextInputFormat.class);

        TextInputFormat.setInputPaths(job, new Path("file:////Volumes/赵壮备份/大数据离线课程资料/5.大数据离线第五天/自定义groupingComparator/input/orders.txt"));

        //自定义Map逻辑

        job.setMapperClass(GroupMapper.class);

        //设置k2,v2输出类型

        job.setMapOutputKeyClass(OrderBean.class);

        job.setMapOutputValueClass(NullWritable.class);

        //自定义Partition逻辑

        job.setPartitionerClass(GroupPartitioner.class);

        //自定义分组逻辑

        job.setGroupingComparatorClass(GroupComparator.class);

        //自定义reduce逻辑

        job.setReducerClass(GroupReducer.class);

        //设置k3,v3输出类型

        job.setOutputKeyClass(OrderBean.class);

        job.setOutputValueClass(NullWritable.class);

        //输出数据，设置输出路径

        job.setOutputFormatClass(TextOutputFormat.class);

        TextOutputFormat.setOutputPath(job, new Path("file:////Volumes/赵壮备份/大数据离线课程资料/5.大数据离线第五天/自定义groupingComparator/output_top1"));

        //提交任务至集群

        boolean b = job.waitForCompletion(true);

        return b ? 0 : 1;

    }

    public static void main(String[] args) throws Exception {

        int run = ToolRunner.run(new Configuration(), new GroupMain(), args);

        System.exit(run);

    }

}

运行结果

Order_0000002	822.4

Order_0000003	222.8

Order_0000005	222.8

求取TopN的数据

需求

求取Top1运用了GroupBy的规则，排序后，不需要再进行操作，就会自动输出首个数据

如果要获取TopN的数据就需要在Reduce逻辑中添加循环遍历，所有的NullWritable转换为DoubleWritable，其他都不变
代码实现

自定义一个javaBean，命名为OrderBean

package cn.itcast.demo6;

import org.apache.hadoop.io.WritableComparable;

import java.io.DataInput;

import java.io.DataOutput;

import java.io.IOException;

public class OrderBean implements WritableComparable<OrderBean> {

    //定义orderId和price变量

    private String orderId;

    private Double price;

    /**

     * 重写compareTo方法

     *

     * @param o

     * @return

     */

    @Override

    public int compareTo(OrderBean o) {

        //先对orderId进行比较，如果相同，将它们的price放一起比较，不同就不比较

        int result = this.orderId.compareTo(o.orderId);

        //进行判断

        if (result == 0) {

            int i = this.price.compareTo(o.price);

            return -i;      //返回i求取最小值，返回-i求取最大值

        }

        return result;

    }

    @Override

    public void write(DataOutput out) throws IOException {

        out.writeUTF(orderId);

        out.writeDouble(price);

    }

    @Override

    public void readFields(DataInput in) throws IOException {

        this.orderId = in.readUTF();

        this.price = in.readDouble();

    }

    //生成get(),set()方法

    public String getOrderId() {

        return orderId;

    }

    public void setOrderId(String orderId) {

        this.orderId = orderId;

    }

    public double getPrice() {

        return price;

    }

    public void setPrice(Double price) {

        this.price = price;

    }

    //生成toString()方法

    @Override

    public String toString() {

        return orderId + "\t" + price;

    }

}

定义一个Mapper类

package cn.itcast.demo6;

import org.apache.hadoop.io.DoubleWritable;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.NullWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

public class GroupMapper extends Mapper<LongWritable, Text, OrderBean, DoubleWritable> {

    @Override

    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {

        //分割获取到的数据

        String[] split = value.toString().split("\t");

        //创建orderBean对象

        OrderBean orderBean = new OrderBean();

        //给orderId赋值

        orderBean.setOrderId(split[0]);

        //给price赋值

        orderBean.setPrice(Double.valueOf(split[2]));

        DoubleWritable doubleWritable = new DoubleWritable(Double.valueOf(split[2]));

        context.write(orderBean, doubleWritable);

    }

}

自定义分区(Partition)规则

package cn.itcast.demo6;

import org.apache.hadoop.io.DoubleWritable;

import org.apache.hadoop.io.NullWritable;

import org.apache.hadoop.mapreduce.Partitioner;

public class GroupPartitioner extends Partitioner<OrderBean, DoubleWritable> {

    /**

     * 重写分区方法

     *

     * @param orderBean

     * @param doubleWritable

     * @param i

     * @return

     */

    @Override

    public int getPartition(OrderBean orderBean, DoubleWritable doubleWritable, int i) {

        //参照HashPartitioner的重写方法

        return (orderBean.getOrderId().hashCode() & Integer.MAX_VALUE) % i;

    }

}

自定义分组(groupingComparator)规则

package cn.itcast.demo6;

import org.apache.hadoop.io.WritableComparable;

import org.apache.hadoop.io.WritableComparator;

public class GroupComparator extends WritableComparator {

    //重写无参构造方法，定义反射出来的对象是OrderBean类

    public GroupComparator() {

        super(OrderBean.class, true);

    }

    @Override

    public int compare(WritableComparable a, WritableComparable b) {

        OrderBean first = (OrderBean) a;

        OrderBean second = (OrderBean) b;

        //比较orderId，如果相同就认为是同一组数据

        return first.getOrderId().compareTo(second.getOrderId());

    }

}

定义一个Reducer类

package cn.itcast.demo6;

import org.apache.hadoop.io.DoubleWritable;

import org.apache.hadoop.io.NullWritable;

import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

public class GroupReducer extends Reducer<OrderBean, DoubleWritable, OrderBean, DoubleWritable> {

    /**

     * 直接将收到的k2,v2的值转换为k3,v3输出

     *

     * @param key

     * @param values

     * @param context

     * @throws IOException

     * @throws InterruptedException

     */

    @Override

    protected void reduce(OrderBean key, Iterable<DoubleWritable> values, Context context) throws IOException, InterruptedException {

        int i = 0;

        for (DoubleWritable value : values) {

            i++;

            if (i <= 2) {

                context.write(key, value);

            } else {

                break;

            }

        }

    }

}

程序main函数入口

package cn.itcast.demo6;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.conf.Configured;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.DoubleWritable;

import org.apache.hadoop.io.NullWritable;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;

import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;

import org.apache.hadoop.util.Tool;

import org.apache.hadoop.util.ToolRunner;

public class GroupMain extends Configured implements Tool {

    @Override

    public int run(String[] args) throws Exception {

        //获取Job对象

        Job job = Job.getInstance(super.getConf(), "myGroupComparator");

        //输入数据，设置输入路径

        job.setInputFormatClass(TextInputFormat.class);

        TextInputFormat.setInputPaths(job, new Path("file:////Volumes/赵壮备份/大数据离线课程资料/5.大数据离线第五天/自定义groupingComparator/input/orders.txt"));

        //自定义Map逻辑

        job.setMapperClass(GroupMapper.class);

        //设置k2,v2输出类型

        job.setMapOutputKeyClass(OrderBean.class);

        job.setMapOutputValueClass(DoubleWritable.class);

        //自定义Partition逻辑

        job.setPartitionerClass(GroupPartitioner.class);

        //自定义分组逻辑

        job.setGroupingComparatorClass(GroupComparator.class);

        //自定义reduce逻辑

        job.setReducerClass(GroupReducer.class);

        //设置k3,v3输出类型

        job.setOutputKeyClass(OrderBean.class);

        job.setOutputValueClass(DoubleWritable.class);

        //输出数据，设置输出路径

        job.setOutputFormatClass(TextOutputFormat.class);

        TextOutputFormat.setOutputPath(job, new Path("file:////Volumes/赵壮备份/大数据离线课程资料/5.大数据离线第五天/自定义groupingComparator/output_top2"));

        //提交任务至集群

        boolean b = job.waitForCompletion(true);

        return b ? 0 : 1;

    }

    public static void main(String[] args) throws Exception {

        int run = ToolRunner.run(new Configuration(), new GroupMain(), args);

        System.exit(run);

    }

}

运行结果

Order_0000002	822.4	822.4

Order_0000002	522.4	522.4

Order_0000003	222.8	222.8

Order_0000005	222.8	222.8

Order_0000005	25.8	25.8

【Hadoop离线基础总结】MapReduce案例之自定义groupingComparator的更多相关文章

【Hadoop离线基础总结】Hue的简单介绍和安装部署
目录 Hue的简单介绍概述核心功能安装部署下载Hue的压缩包并上传到linux解压编译安装启动启动Hue进程 hue与其他框架的集成 Hue与Hadoop集成 Hue与Hive集成 Hue ...
【Hadoop离线基础总结】oozie的安装部署与使用
目录简单介绍概述架构安装部署 1.修改core-site.xml 2.上传oozie的安装包并解压 3.解压hadooplibs到与oozie平行的目录 4.创建libext目录,并拷贝依赖包 ...
【Hadoop离线基础总结】impala简单介绍及安装部署
目录 impala的简单介绍概述优点缺点 impala和Hive的关系 impala如何和CDH一起工作 impala的架构及查询计划 impala/hive/spark 对比 impala的安 ...
【Hadoop离线基础总结】Hive调优手段
Hive调优手段最常用的调优手段 Fetch抓取 MapJoin 分区裁剪列裁剪控制map个数以及reduce个数 JVM重用数据压缩 Fetch的抓取出现原因 Hive中对某些情况的查询不 ...
【Hadoop离线基础总结】流量日志分析网站整体架构模块开发
目录数据仓库设计维度建模概述维度建模的三种模式本项目中数据仓库的设计 ETL开发创建ODS层数据表导入ODS层数据生成ODS层明细宽表统计分析开发流量分析受访分析访客visit分 ...
【Hadoop离线基础总结】Sqoop常用命令及参数
目录常用命令常用公用参数公用参数:数据库连接公用参数:import 公用参数:export 公用参数:hive 常用命令&参数从关系表导入--import 导出到关系表--expor ...
【Hadoop离线基础总结】MapReduce增强（上）
MapReduce增强 MapReduce的分区与reduceTask的数量概述 MapReduce当中的分区:物以类聚,人以群分.相同key的数据,去往同一个reduce. ReduceTask的 ...
【Hadoop离线基础总结】MapReduce倒排索引建立
MapReduce倒排索引建立求某些单词在文章中出现多少次有三个文档的内容,求hello,tom,jerry三个单词在其中各出现多少次 hello tom hello jerry hello to ...
【Hadoop离线基础总结】工作流调度器azkaban
目录 Azkaban概述工作流调度系统的作用工作流调度系统的实现常见工作流调度工具对比 Azkaban简单介绍安装部署 Azkaban的编译 azkaban单服务模式安装与使用 azkaban ...

随机推荐

three.js - 一个javascript 3D代码库
这个项目的目的是用最简单的开发模式创建一个轻量级的3 d代码库,这个js库提供了canvas,svg,css3d和webgl这四种渲染方式. 下载地址: 下载地址:https://github.com ...
Julia基础语法复数和分数
1.复数 2.分数
IP连接数据库语句
select * from [19.200.108.2].[jsoctnetv6.0].[CardInfo] where ICNO='32719'
原创Hbase1.2.1集群安装
[hadoop@Hmaster install]$ tar -zxvf hbase-1.2.1-bin.tar.gz -C ~ [hadoop@Hmaster install]$vi ~/.bash_ ...
最新超详细VMware虚拟机安装完整教程
一.基础介绍 VMWare虚拟机软件是一个“虚拟PC”软件,它使你可以在一台机器上同时运行二个或更多Windows.DOS.LINUX系统.与“多启动”系统相比,VMWare采用了完全不同的概念.多启 ...
Java去除ArrayList集合中重复字符串的案例
ArrayList去除集合中的字符串重复值分析: A:创建集合对象 B:添加多个字符串元素 C:创建新集合 D:遍历旧集合,获取得到每一个元素 E:拿着个元素到新集合去找,看有没有有:不进去没有 ...
spark中的pair rdd，看这一篇就够了
本文始发于个人公众号:TechFlow,原创不易,求个关注今天是spark专题的第四篇文章,我们一起来看下Pair RDD. 定义在之前的文章当中,我们已经熟悉了RDD的相关概念,也了解了RDD基 ...
Jetson AGX Xavier更换apt-get源
使用apt-get安装时,会很慢,更换了国内的源后,就可以解决这个问题了. 1. 备份sources.list文件 sudo cp /etc/apt/sources.list /etc/apt/sou ...
(c++ std) 查找 vector 中的元素
You can use std::find from <algorithm>: std::find(vector.begin(), vector.end(), item) != vecto ...
XEP-0199 XMPP Ping
原文来自:https://xmpp.org/extensions/xep-0199.html,只翻译了技术方面的内容. 摘要:这个规范定义了一个通过XML流发送应用级别pings的XMPP扩展协议.这 ...

【Hadoop离线基础总结】MapReduce案例之自定义groupingComparator

MapReduce案例之自定义groupingComparator

求取Top 1的数据

求取TopN的数据

【Hadoop离线基础总结】MapReduce案例之自定义groupingComparator的更多相关文章

随机推荐

热门专题