Pig、Hive、MapReduce 解决分组 Top K 问题(转)

问题：

有如下数据文件 city.txt （id， city， value）

cat city.txt
1 wh 500
2 bj 600
3 wh 100
4 sh 400
5 wh 200
6 bj 100
7 sh 200
8 bj 300
9 sh 900
需要按 city 分组聚合，然后从每组数据中取出前两条value最大的记录。

1、这是实际业务中经常会遇到的 group TopK 问题，下面来看看 pig 如何解决：

`1`	`a =` `load` `'/data/city.txt'` `using PigStorage(' ')` `as` `(id:chararray, city:chararray, value:int);`

`2`	`b =` `group` `a` `by` `city;`

`3`	`c = foreach b {c1=order` `a` `by` `value` `desc; c2=limit c1 2; generate` `group,c2.value;};`

`4`	d = stream c through `sed `'s/[(){}]//g'``;

5 dump d;

结果：

`1`	`(bj,600,300)`

`2`	`(sh,900,400)`

`3`	`(wh,500,200)`

这几行代码其实也实现了mysql中的 group_concat 函数的功能：

`1`	`a =` `load` `'/data/city.txt'` `using PigStorage(' ')` `as` `(id:chararray, city:chararray, value:int);`

`2`	`b =` `group` `a` `by` `city;`

`3`	`c = foreach b {c1=order` `a` `by` `value` `desc; generate` `group,c1.value;};`

`4`	d = stream c through `sed `'s/[(){}]//g'``;

5 dump d;

结果：

`1`	`(bj,600,300,100)`

`2`	`(sh,900,400,200)`

`3`	`(wh,500,200,100)`

2、下面我们再来看看hive如何处理group topk的问题：

本质上HSQL和sql有很多相同的地方，但HSQL目前功能还有很多缺失，至少不如原生态的SQL功能强大，

比起PIG也有些差距，如果SQL中这类分组topk的问题如何解决呢？

`1`	`select` `*` `from` `city a` `where`

`2`	`2>(select` `count(1)` `from` `city` `where` `cname=a.cname` `and` `value>a.value)`

`3`	`distribute` `by` `a.cname sort` `by` `a.cname,a.value` `desc;`

http://my.oschina.net/leejun2005/blog/78904

但是这种写法在HQL中直接报语法错误了，下面我们只能用hive udf的思路来解决了：

排序city和value，然后对city计数，最后where过滤掉city列计数器大于k的行即可。

好了，上代码：

（1）定义UDF：

`01`	`package com.example.hive.udf;`

`02`	`import org.apache.hadoop.hive.ql.exec.UDF;`

03

`04`	`public` `final class Rank extends UDF{`

`05`	`private` `int` `counter;`

`06`	`private String last_key;`

`07`	`public` `int` `evaluate(final String` `key){`

`08`	`if ( !key.equalsIgnoreCase(this.last_key) ) {`

`09`	`this.counter = 0;`

`10`	`this.last_key =` `key;`

11 }

`12`	`return` `this.counter++;`

13 }

14 }

(2）注册jar、建表、导数据，查询：

`1`	`add` `jar Rank.jar;`

`2`	`create` `temporary` `function` `rank` `as` `'com.example.hive.udf.Rank';`

`3`	`create` `table` `city(id` `int,cname string,value` `int) row format delimited fields terminated` `by` `' ';`

`4`	`LOAD` `DATA` `LOCAL` `INPATH` `'city.txt'` `OVERWRITE` `INTO` `TABLE` `city;`

`5`	`select` `cname, value` `from` `(`

`6`	`select` `cname,rank(cname) csum,value` `from` `(`

`7`	`select` `id, cname, value` `from` `city distribute` `by` `cname sort` `by` `cname,value` `desc`

8 )a

`9`	`)b` `where` `csum < 2;`

（3）结果：

1 bj 600

2 bj 300

3 sh 900

4 sh 400

5 wh 500

6 wh 200

可以看到，hive相比pig来说，处理起来稍微复杂了点，但随着hive的日渐完善，以后比pig更简洁也说不定。

REF：hive中分组取前N个值的实现

http://baiyunl.iteye.com/blog/1466343

3、最后我们来看一下原生态的MR：

`01`	`import` `java.io.IOException;`

`02`	`import` `java.util.TreeSet;`

03

`04`	`import` `org.apache.hadoop.conf.Configuration;`

`05`	`import` `org.apache.hadoop.fs.Path;`

`06`	`import` `org.apache.hadoop.io.IntWritable;`

`07`	`import` `org.apache.hadoop.io.LongWritable;`

`08`	`import` `org.apache.hadoop.io.Text;`

`09`	`import` `org.apache.hadoop.mapreduce.Job;`

`10`	`import` `org.apache.hadoop.mapreduce.Mapper;`

`11`	`import` `org.apache.hadoop.mapreduce.Reducer;`

`12`	`import` `org.apache.hadoop.mapreduce.lib.input.FileInputFormat;`

`13`	`import` `org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;`

`14`	`import` `org.apache.hadoop.util.GenericOptionsParser;`

15

`16`	`public` `class` `GroupTopK {`

`17`	`// 这个 MR 将会取得每组年龄中 id 最大的前 3 个`

`18`	`// 测试数据由脚本生成：http://my.oschina.net/leejun2005/blog/76631`

`19`	`public` `static` `class` `GroupTopKMapper` `extends`

`20`	`Mapper<LongWritable, Text, IntWritable, LongWritable> {`

`21`	`IntWritable outKey =` `new` `IntWritable();`

`22`	`LongWritable outValue =` `new` `LongWritable();`

`23`	`String[] valArr =` `null;`

24

`25`	`public` `void` `map(LongWritable key, Text value, Context context)`

`26`	`throws` `IOException, InterruptedException {`

`27`	`valArr = value.toString().split("\t");`

`28`	`outKey.set(Integer.parseInt(valArr[2]));// age int`

`29`	`outValue.set(Long.parseLong(valArr[0]));// id long`

`30`	`context.write(outKey, outValue);`

31 }

32 }

33

`34`	`public` `static` `class` `GroupTopKReducer` `extends`

`35`	`Reducer<IntWritable, LongWritable, IntWritable, LongWritable> {`

36

`37`	`LongWritable outValue =` `new` `LongWritable();`

38

`39`	`public` `void` `reduce(IntWritable key, Iterable<LongWritable> values,`

`40`	`Context context)` `throws` `IOException, InterruptedException {`

`41`	`TreeSet<Long> idTreeSet =` `new` `TreeSet<Long>();`

`42`	`for` `(LongWritable val : values) {`

`43`	`idTreeSet.add(val.get());`

`44`	`if` `(idTreeSet.size() >` `3) {`

`45`	`idTreeSet.remove(idTreeSet.first());`

46 }

47 }

`48`	`for` `(Long id : idTreeSet) {`

`49`	`outValue.set(id);`

`50`	`context.write(key, outValue);`

51 }

52 }

53 }

54

`55`	`public` `static` `void` `main(String[] args)` `throws` `Exception {`

`56`	`Configuration conf =` `new` `Configuration();`

`57`	`String[] otherArgs =` `new` `GenericOptionsParser(conf, args)`

`58`	`.getRemainingArgs();`

59

`60`	`System.out.println(otherArgs.length);`

`61`	`System.out.println(otherArgs[0]);`

`62`	`System.out.println(otherArgs[1]);`

63

`64`	`if` `(otherArgs.length !=` `3) {`

`65`	`System.err.println("Usage: GroupTopK <in> <out>");`

`66`	`System.exit(2);`

67 }

`68`	`Job job =` `new` `Job(conf,` `"GroupTopK");`

`69`	`job.setJarByClass(GroupTopK.class);`

`70`	`job.setMapperClass(GroupTopKMapper.class);`

`71`	`job.setReducerClass(GroupTopKReducer.class);`

`72`	`job.setNumReduceTasks(1);`

`73`	`job.setOutputKeyClass(IntWritable.class);`

`74`	`job.setOutputValueClass(LongWritable.class);`

`75`	`FileInputFormat.addInputPath(job,` `new` `Path(otherArgs[1]));`

`76`	`FileOutputFormat.setOutputPath(job,` `new` `Path(otherArgs[2]));`

`77`	`System.exit(job.waitForCompletion(true) ?` `0` `:` `1);`

78 }

79 }

hadoop jar GroupTopK.jar GroupTopK /tmp/decli/record_new.txt /tmp/1

结果：

hadoop fs -cat /tmp/1/part-r-00000
0 12869695
0 12869971
0 12869976
1 12869813
1 12869870
1 12869951

......

数据验证：

awk '$3==0{print $1}' record_new.txt|sort -nr|head -3
12869976
12869971
12869695

可以看到结果没有问题。

注：测试数据由以下脚本生成：

http://my.oschina.net/leejun2005/blog/76631

PS：

如果说hive类似sql的话，那pig就类似plsql存储过程了：程序编写更自由，逻辑能处理的更强大了。

pig中还能直接通过反射调用java的静态类中的方法，这块内容请参考之前的相关pig博文。

附几个HIVE UDAF链接，有兴趣的同学自己看下：

Hive UDAF和UDTF实现group by后获取top值 http://blog.csdn.net/liuzhoulong/article/details/7789183
hive中自定义函数(UDAF)实现多行字符串拼接为一行 http://blog.sina.com.cn/s/blog_6ff05a2c0100tjw4.html
编写Hive UDAF http://www.fuzhijie.me/?p=118
Hive UDAF开发 http://richiehu.blog.51cto.com/2093113/386113

Pig、Hive、MapReduce 解决分组 Top K 问题(转)的更多相关文章

如何解决海量数据的Top K问题
1．问题描述在大规模数据处理中,常遇到的一类问题是,在海量数据中找出出现频率最高的前K个数,或者从海量数据中找出最大的前K个数,这类问题通常称为“top K”问题,如:在搜索引擎中,统计搜索最热门 ...
优先队列实现大小根堆解决top k 问题
摘于:http://my.oschina.net/leejun2005/blog/135085 目录:[ - ] 1.认识 PriorityQueue 2.应用:求 Top K 大/小的元素 3 ...
get top k elements of the same key in hive
key points: 1. group by key and sort by using distribute by and sort by. 2. get top k elements by a ...
pig询问top k，每个返回hour和ad_network_id最大的两个记录（SUBSTRING，order，COUNT_STAR，limit）
pig里面有一个TOP功能.我不知道为什么用不了.有时间去看看pig源代码. SET job.name 'top_k'; SET job.priority HIGH; --REGISTER piggy ...
Top K问题的两种解决思路
Top K问题在数据分析中非常普遍的一个问题(在面试中也经常被问到),比如: 从20亿个数字的文本中,找出最大的前100个. 解决Top K问题有两种思路, 最直观:小顶堆(大顶堆 -> 最小1 ...
pig中查询top k，返回每个hour和ad_network_id下最大两个记录（SUBSTRING，order，COUNT_STAR，limit）
pig里面是有TOP函数,不知道为什么用不了.有时间要去看看pig源码了. SET job.name 'top_k'; SET job.priority HIGH; --REGISTER piggyb ...
优先队列PriorityQueue实现大小根堆解决top k 问题
转载:https://www.cnblogs.com/lifegoesonitself/p/3391741.html PriorityQueue是从JDK1.5开始提供的新的数据结构接口,它是一种基于 ...
海量数据处理 - 10亿个数中找出最大的10000个数（top K问题）
前两天面试3面学长问我的这个问题(想说TEG的3个面试学长都是好和蔼,希望能完成最后一面,各方面原因造成我无比想去鹅场的心已经按捺不住了),这个问题还是建立最小堆比较好一些. 先拿10000个数建堆, ...
pig hive 区别
Pig是一种编程语言,它简化了Hadoop常见的工作任务.Pig可加载数据.表达转换数据以及存储最终结果.Pig内置的操作使得半结构化数据变得有意义(如日志文件).同时Pig可扩展使用Java中添加的 ...

随机推荐

a5调试
1 generating rsa key...[ 4.452000] mmc0: error -110 whilst initialising SD card[ 5.602000] mmc ...
Solr学习02：搭建Solr环境
一.安装虚拟机 Solr 必须运行在Java1.6 或更高版本的Java 虚拟机中,运行标准Solr 服务只需要安装JRE 即可,但如果需要扩展功能或编译源码则需要下载JDK 来完成.可以通过下面的地 ...
如何移植.NET Framework项目至.NET Core？
公司的项目一直采用.NET框架来开发Web项目.目前基础类库均为.NET Framework 4.6.2版本.Caching, Logging,DependencyInjection,Configur ...
第二百二十八节，jQuery EasyUI，TreeGrid(树形表格)组件
jQuery EasyUI,TreeGrid(树形表格)组件学习要点: 1.加载方式 2.属性列表 3.事件列表 4.方法列表本节课重点了解 EasyUI 中 TreeGrid(树形表格)组件的使 ...
CodeSmith自动生成代码使用
官网地址:http://www.codesmithtools.com/ CodeSmith开发系列资料总结 http://terrylee.cnblogs.com/archive/2005/12/28 ...
Hourrank 21 Tree Isomorphism 树hash
https://www.hackerrank.com/contests/hourrank-21/challenges/tree-isomorphism 题目大意: 给出一棵树, 求有多少本质不同的子树 ...
kvm初体验之四：从Host登录Guest的五种方式
1. virt-viewer virt-viewer -c qemu:///system vm1 2. virt-manager (以非root身份运行) virt-manager -c qemu:/ ...
我的第一个reactnative
由于在做极光推送,前端使用的框架是reactnative,后台写好后为了测试一下,所以按照react官方的教程搭了遍react. 开发环境: 1.windows 7(建议各位如果开发react的最好还 ...
尼康D90多点对焦
11点对焦上市时间 2008 类型单反数码相机对焦方式单区域AF:在选择区域内只对焦于目标可以从11个AF点传感器中的任意一个中选择动态区域AF:对焦于选择区域的目标上,如果目标离开原来位置 ...
Web 前端从入门菜鸟到实践老司机所需要的资料与指南合集
http://web.jobbole.com/89188/ 2016 – 对于未来五年内Web发展的7个预测 2015 – 我的前端之路:从命令式到响应式,以及组件化与工程化的变革怎么成为一名优秀的 ...

Pig、Hive、MapReduce 解决分组 Top K 问题(转)

Pig、Hive、MapReduce 解决分组 Top K 问题(转)的更多相关文章

随机推荐

热门专题