Mapreduce 订单分组案例

程序执行流程如下:

map()-->getPartition()分区--->write()(序列化,每一行都顺序执行这三个方法)--->readFields()---->compareTo()排序---->readFields()--->分组compare--->reduce()

对于每一行的内容,依次执行map()-->getPartition()---->write()(序列化,会在指定的输出目录下生成temporary目录),全部序列化完成之后执行readFields(),之后进行排序,全部排序完毕后才会再次执行readFields(),

之后进行分组,分出一组,执行一次reduce()写出数据

1.OrderBean(分了区之后就不需要对OrderId进行排序了,因为同一分区OrderId相同)

 package mapreduce.order;

 import java.io.DataInput;

 import java.io.DataOutput;

 import java.io.IOException;

 import org.apache.hadoop.io.WritableComparable;

 public class OrderBean implements WritableComparable<OrderBean>{

     private String orderId;

     private Double price;

     public String getOrderId() {

         return orderId;

     }

     public void setOrderId(String orderId) {

         this.orderId = orderId;

     }

     public Double getPrice() {

         return price;

     }

     public void setPrice(Double price) {

         this.price = price;

     }

     public OrderBean() {

         super();

     }

     /**

      * 序列化

      * @param out

      * @throws IOException

      */

     @Override

     public void write(DataOutput out) throws IOException {

         out.writeUTF(orderId);

         out.writeDouble(price);

     }

     /**

      * 反序列化

      * @param in

      * @throws IOException

      */

     @Override

     public void readFields(DataInput in) throws IOException {

         orderId = in.readUTF();

         price   = in.readDouble();

     }

     @Override

     public String toString() {

         return orderId + "\t" + price;

     }

     /**

      * 二次排序(如果进行了分区,可以直接对price排序,不再需要二次排序)

      * @param o

      * @return

      */

     @Override

     public int compareTo(OrderBean o) {

         //先比较orderId(字符串)

     //    int result = this.getOrderId().compareTo(o.getOrderId());

         //相同再比较price

     //    if(result == 0) {

             //降序,数字的compareTo() -1表示小于

         int    result = this.getPrice() > o.getPrice()?-:;

     //    }

         return result;

     }

 }

2.OrderMapper

 package mapreduce.order;

 import java.io.IOException;

 import org.apache.hadoop.io.LongWritable;

 import org.apache.hadoop.io.NullWritable;

 import org.apache.hadoop.io.Text;

 import org.apache.hadoop.mapreduce.Mapper;

 public class OrderMapper extends Mapper<LongWritable, Text, OrderBean, NullWritable> {

     OrderBean order = new OrderBean();

     @Override

     protected void map(LongWritable key, Text value,

             Mapper<LongWritable, Text, OrderBean, NullWritable>.Context context)

             throws IOException, InterruptedException {

         // 1.读取一行

         String line = value.toString();

         // 2.切割并封装对象

         String[] split = line.split("\t");

         order.setOrderId(split[]);

         order.setPrice(Double.parseDouble(split[]));

         // 3.输出

         context.write(order, NullWritable.get());

     }

 }

3.OrderPartioner

 package mapreduce.order;

 import org.apache.hadoop.io.NullWritable;

 import org.apache.hadoop.mapreduce.Partitioner;

 /**

  * 分区

  * @author tele

  *

  */

 public class OrderPartioner extends Partitioner<OrderBean, NullWritable> {

     /**

      * 默认是根据orderBean的hashcode进行分区

      * 现在更改为orderBean对象的orderId进行分区,这样相同orderId的即可进入同一分区

      */

     @Override

     public int getPartition(OrderBean key, NullWritable value, int numReduceTasks) {

         return (key.getOrderId().hashCode() & Integer.MAX_VALUE) % numReduceTasks;

     }

 }

4.OrderGroupComparator

 package mapreduce.order;

 import org.apache.hadoop.io.WritableComparable;

 import org.apache.hadoop.io.WritableComparator;

 /**

  * reduce分组的方法

  *

  * @author tele

  *

  */

 public class OrderGroupComparator extends WritableComparator {

     /**

      * 确保类型转换成功,能够创建实例,如果是false,创建的实例为null

      */

     protected OrderGroupComparator() {

         super(OrderBean.class, true);

     }

     /**

      * reduce默认是根据key进行分组,即此处的orderBean,重写之后

      * 根据orderBean的orderId进行分组,相同的orderId的orderBean将会分到同一组

      */

     @Override

     public int compare(WritableComparable a, WritableComparable b) {

         OrderBean bean1 = (OrderBean) a;

         OrderBean bean2 = (OrderBean) b;

         return bean1.getOrderId().compareTo(bean2.getOrderId());

     }

 }

5.OrderReducer(reduce()每次读入一组)

 package mapreduce.order;

 import java.io.IOException;

 import org.apache.hadoop.io.NullWritable;

 import org.apache.hadoop.mapreduce.Reducer;

 public class OrderReducer extends Reducer<OrderBean, NullWritable, OrderBean, NullWritable> {

     @Override

     protected void reduce(OrderBean key, Iterable<NullWritable> value,

             Reducer<OrderBean, NullWritable, OrderBean, NullWritable>.Context context)

             throws IOException, InterruptedException {

         context.write(key, NullWritable.get());

     }

 }

6.OrderDriver(必须设置分组类)

 package mapreduce.order;

 import java.io.IOException;

 import org.apache.hadoop.conf.Configuration;

 import org.apache.hadoop.fs.Path;

 import org.apache.hadoop.io.NullWritable;

 import org.apache.hadoop.mapreduce.Job;

 import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

 import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

 /**

  *

  * @author tele

  *

  */

 public class OrderDriver {

     public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {

         // 1.获得job实例

         Configuration conf = new Configuration();

         Job job = Job.getInstance(conf);

         // 2.设置driverclass

         job.setJarByClass(OrderDriver.class);

         // mapclass

         job.setMapperClass(OrderMapper.class);

         // reduceclass

         job.setReducerClass(OrderReducer.class);

         // 3.map输入输出数据类型

         job.setMapOutputKeyClass(OrderBean.class);

         job.setMapOutputValueClass(NullWritable.class);

         // 4.最终输出数据类型

         job.setOutputKeyClass(OrderBean.class);

         job.setOutputValueClass(NullWritable.class);

         // 7.设置分区类

         job.setPartitionerClass(OrderPartioner.class);

         job.setNumReduceTasks();

         // 8.设置分组类

         job.setGroupingComparatorClass(OrderGroupComparator.class);

         // 5.输入与输出路径

         FileInputFormat.setInputPaths(job, new Path(args[]));

         FileOutputFormat.setOutputPath(job, new Path(args[]));

         // 6.提交与退出

         boolean result = job.waitForCompletion(true);

         System.exit(result ?  : );

     }

 }

Mapreduce 订单分组案例的更多相关文章

MapReduce 单词统计案例编程
MapReduce 单词统计案例编程一.在Linux环境安装Eclipse软件 1. 解压tar包下载安装包eclipse-jee-kepler-SR1-linux-gtk-x86_64.ta ...
flink-----实时项目---day06-------1. 获取窗口迟到的数据 2.双流join（inner join和left join（有点小问题）） 3 订单Join案例（订单数据接入到kafka，订单数据的join实现，订单数据和迟到数据join的实现）
1. 获取窗口迟到的数据主要流程就是给迟到的数据打上标签,然后使用相应窗口流的实例调用sideOutputLateData(lateDataTag),从而获得窗口迟到的数据,进而进行相关的计算,具体 ...
hadoop笔记之MapReduce的应用案例(利用MapReduce进行排序)
MapReduce的应用案例(利用MapReduce进行排序) MapReduce的应用案例(利用MapReduce进行排序) 思路: Reduce之后直接进行结果合并具体样例: 程序名:Sort. ...
hadoop笔记之MapReduce的应用案例(WordCount单词计数)
MapReduce的应用案例(WordCount单词计数) MapReduce的应用案例(WordCount单词计数) 1. WordCount单词计数作用: 计算文件中出现每个单词的频数输入结果 ...
产品运营数据分析—SPSS数据分组案例
产品运营数据分析-SPSS数据分组案例当我们的样本量过大,譬如以前讲过的,EXCEL2010最大只支持1048576行.16384列,尤其是当行数大于30万,一般的办公电脑处理都比较吃力,所以推荐数 ...
RabbitMQ实现订单超时案例
前言人间清醒目录前言业务场景 JUC(DelayQueue)方案 DelayQueue简介 JUC DelayQueue实现订单超时案例代码案例代码 Redis Key过期事件方案简介 R ...
Hadoop mapreduce自定义分组RawComparator
本文发表于本人博客. 今天接着上次[Hadoop mapreduce自定义排序WritableComparable]文章写,按照顺序那么这次应该是讲解自定义分组如何实现,关于操作顺序在这里不多说了,需 ...
[代码]multimap员工分组案例
案例要求: //multimap 案例//公司今天招聘了 5 个员工,5 名员工进入公司之后,需要指派员工在那个部门工作//人员信息有: 姓名年龄电话工资等组成//通过 Multimap 进行信 ...
Pig、Hive、MapReduce 解决分组 Top K 问题(转)
问题: 有如下数据文件 city.txt (id, city, value) cat city.txt 1 wh 5002 bj 6003 wh 1004 sh 4005 wh 2006 bj 100 ...

随机推荐

controller接收参数的对象是vo还是dto?
我也没有深入了解过,就我使用情况来说的话,VO和DTO在实际开发过程中其实可以是一样的.从定义上来说他们区别于使用的所在层,VO(view object)视图对象,DTO(Data Transfer ...
HDOJ 5409 CRB and Graph 无向图缩块
无向图缩块后,以n所在的块为根节点,dp找每块中的最大值. 对于每一个桥的答案为两块中的较小的最大值和较小的最大值加1 CRB and Graph Time Limit: 8000/4000 MS ( ...
h5做app和原生app有什么区别？
h5做app和原生app有什么区别? 一.总结一句话总结: 二.h5做app和原生app有什么区别? 普通的HTML5技术与原生技术相比,有跨平台.动态.开放.直达二级内容页面等特点,但却在性能.工 ...
Windows Forms 对话框篇
1,标准对话框 Windows内置的对话框,又叫公用对话框,它们作为组件提供的,并且存在于System.Windows.Forms命名空间中. 手工方式: private void button1_C ...
(转)Nginx在RedHat中系统服务配置脚本
转自:http://binyan17.iteye.com/blog/1688308 以下代码是在前人的基础上,结合自己服务器实际情况修改的,本人服务器环境是:CentOS 6.31.创建启动脚本, ...
ado连接mysql和ORACLE
------mysql strConnect.Format("Provider=MSDASQL.1;Driver={%s};Server=%s;DataBase=%s;UID=%s;PWD= ...
EJBCA在Linux上的安装
在windows上安装为了測试用,装在linux服务器上的由于CN用的ip须要重装.....又是折腾一番,以下介绍一些须要注意的地方一.所需文件准备的内容就不说了,參考我的上上篇<EJBCA ...
Linux 下查看线程信息
1. 使用 pstree -p PID ps aux | grep firefox | grep -v grepcharles 26058 0.0 0.0 4908 1152 ? ...
排查一般MySQL性能问题
排查一般MySQL性能问题,通常要记录下面几项信息: 1.mysql> show processlist; 2.mysql> show engine innodb status\G 3.表 ...
Linux上安装JDK 分类： B1_JAVA B3_LINUX 2014-08-29 15:12 449人阅读评论(0) 收藏
1.下载rpm文件并安装 rpm -ivh jdk-7u51-linux-x64.rpm 2.修改/etc/profile文件,增加以下配置 export JAVA_HOME=/usr/java/jd ...

Mapreduce 订单分组案例

Mapreduce 订单分组案例的更多相关文章

随机推荐

热门专题