说明

这篇文章是来自Hadoop Hive UDAF Tutorial - Extending Hive with Aggregation Functions:的不严格翻译,因为翻译的文章示例写得比较通俗易懂,此外,我把自己对于Hive的UDAF理解穿插到文章里面。

udfa是hive中用户自定义的聚集函数,hive内置UDAF函数包括有sum()与count(),UDAF实现有简单与通用两种方式,简单UDAF因为使用Java反射导致性能损失,而且有些特性不能使用,已经被弃用了;在这篇博文中我们将关注Hive中自定义聚类函数-GenericUDAF,UDAF开发主要涉及到以下两个抽象类:

  1. org.apache.hadoop.hive.ql.udf.generic.AbstractGenericUDAFResolver
  2. org.apache.hadoop.hive.ql.udf.generic.GenericUDAFEvaluator

源码链接

博文中的所有的代码和数据可以在以下链接找到:hive examples

示例数据准备

首先先创建一张包含示例数据的表:people,该表只有name一列,该列中包含了一个或多个名字,该表数据保存在people.txt文件中。

  1. ~$ cat ./people.txt
  2. John Smith
  3. John and Ann White
  4. Ted Green
  5. Dorothy

把该文件上载到hdfs目录/user/matthew/people中:

  1. hadoop fs -mkdir people
  2. hadoop fs -put ./people.txt people

下面要创建hive外部表,在hive shell中执行

  1. CREATE EXTERNAL TABLE people (name string)
  2. ROW FORMAT DELIMITED FIELDS
  3. TERMINATED BY '\t'
  4. ESCAPED BY ''
  5. LINES TERMINATED BY '\n'
  6. STORED AS TEXTFILE
  7. LOCATION '/user/matthew/people';

相关抽象类介绍

创建一个GenericUDAF必须先了解以下两个抽象类:
  1. org.apache.hadoop.hive.ql.udf.generic.AbstractGenericUDAFResolver
  1. org.apache.hadoop.hive.ql.udf.generic.GenericUDAFEvaluator

为了更好理解上述抽象类的API,要记住hive只是mapreduce函数,只不过hive已经帮助我们写好并隐藏mapreduce,向上提供简洁的sql函数,所以我们要结合Mapper、Combiner与Reducer来帮助我们理解这个函数。要记住在Hadoop集群中有若干台机器,在不同的机器上Mapper与Reducer任务独立运行。

所以大体上来说,这个UDAF函数读取数据(mapper),聚集一堆mapper输出到部分聚集结果(combiner),并且最终创建一个最终的聚集结果(reducer)。因为我们跨域多个combiner进行聚集,所以我们需要保存部分聚集结果。

AbstractGenericUDAFResolver

Resolver很简单,要覆盖实现下面方法,该方法会根据sql传人的参数数据格式指定调用哪个Evaluator进行处理。

  1. <span style="background-color: rgb(255, 255, 255);"><span style="font-size:14px;">public GenericUDAFEvaluator getEvaluator(TypeInfo[] parameters) throws SemanticException;</span></span>

GenericUDAFEvaluator

UDAF逻辑处理主要发生在Evaluator中,要实现该抽象类的几个方法。

在理解Evaluator之前,必须先理解objectInspector接口与GenericUDAFEvaluator中的内部类Model。

ObjectInspector

作用主要是解耦数据使用与数据格式,使得数据流在输入输出端切换不同的输入输出格式,不同的Operator上使用不同的格式。可以参考这两篇文章:first post on Hive UDFsHive中ObjectInspector的作用,里面有关于objectinspector的介绍。

Model

Model代表了UDAF在mapreduce的各个阶段。

  1. public static enum Mode {
  2. /**
  3. * PARTIAL1: 这个是mapreduce的map阶段:从原始数据到部分数据聚合
  4. * 将会调用iterate()和terminatePartial()
  5. */
  6. PARTIAL1,
  7. /**
  8. * PARTIAL2: 这个是mapreduce的map端的Combiner阶段,负责在map端合并map的数据::从部分数据聚合到部分数据聚合:
  9. * 将会调用merge() 和 terminatePartial()
  10. */
  11. PARTIAL2,
  12. /**
  13. * FINAL: mapreduce的reduce阶段:从部分数据的聚合到完全聚合
  14. * 将会调用merge()和terminate()
  15. */
  16. FINAL,
  17. /**
  18. * COMPLETE: 如果出现了这个阶段,表示mapreduce只有map,没有reduce,所以map端就直接出结果了:从原始数据直接到完全聚合
  19. * 将会调用 iterate()和terminate()
  20. */
  21. COMPLETE
  22. };

一般情况下,完整的UDAF逻辑是一个mapreduce过程,如果有mapper和reducer,就会经历PARTIAL1(mapper),FINAL(reducer),如果还有combiner,那就会经历PARTIAL1(mapper),PARTIAL2(combiner),FINAL(reducer)。

而有一些情况下的mapreduce,只有mapper,而没有reducer,所以就会只有COMPLETE阶段,这个阶段直接输入原始数据,出结果。

GenericUDAFEvaluator的方法

  1. // 确定各个阶段输入输出参数的数据格式ObjectInspectors
  2. public  ObjectInspector init(Mode m, ObjectInspector[] parameters) throws HiveException;
  3. // 保存数据聚集结果的类
  4. abstract AggregationBuffer getNewAggregationBuffer() throws HiveException;
  5. // 重置聚集结果
  6. public void reset(AggregationBuffer agg) throws HiveException;
  7. // map阶段,迭代处理输入sql传过来的列数据
  8. public void iterate(AggregationBuffer agg, Object[] parameters) throws HiveException;
  9. // map与combiner结束返回结果,得到部分数据聚集结果
  10. public Object terminatePartial(AggregationBuffer agg) throws HiveException;
  11. // combiner合并map返回的结果,还有reducer合并mapper或combiner返回的结果。
  12. public void merge(AggregationBuffer agg, Object partial) throws HiveException;
  13. // reducer阶段,输出最终结果
  14. public Object terminate(AggregationBuffer agg) throws HiveException;

图解Model与Evaluator关系

Model各阶段对应Evaluator方法调用

Evaluator各个阶段下处理mapreduce流程

实例

下面将讲述一个聚集函数UDAF的实例,我们将计算people这张表中的name列字母的个数。

下面的函数代码是计算指定列中字符的总数(包括空格)

代码

  1. @Description(name = "letters", value = "_FUNC_(expr) - 返回该列中所有字符串的字符总数")
  2. public class TotalNumOfLettersGenericUDAF extends AbstractGenericUDAFResolver {
  3. @Override
  4. public GenericUDAFEvaluator getEvaluator(TypeInfo[] parameters)
  5. throws SemanticException {
  6. if (parameters.length != 1) {
  7. throw new UDFArgumentTypeException(parameters.length - 1,
  8. "Exactly one argument is expected.");
  9. }
  10. ObjectInspector oi = TypeInfoUtils.getStandardJavaObjectInspectorFromTypeInfo(parameters[0]);
  11. if (oi.getCategory() != ObjectInspector.Category.PRIMITIVE){
  12. throw new UDFArgumentTypeException(0,
  13. "Argument must be PRIMITIVE, but "
  14. + oi.getCategory().name()
  15. + " was passed.");
  16. }
  17. PrimitiveObjectInspector inputOI = (PrimitiveObjectInspector) oi;
  18. if (inputOI.getPrimitiveCategory() != PrimitiveObjectInspector.PrimitiveCategory.STRING){
  19. throw new UDFArgumentTypeException(0,
  20. "Argument must be String, but "
  21. + inputOI.getPrimitiveCategory().name()
  22. + " was passed.");
  23. }
  24. return new TotalNumOfLettersEvaluator();
  25. }
  26. public static class TotalNumOfLettersEvaluator extends GenericUDAFEvaluator {
  27. PrimitiveObjectInspector inputOI;
  28. ObjectInspector outputOI;
  29. PrimitiveObjectInspector integerOI;
  30. int total = 0;
  31. @Override
  32. public ObjectInspector init(Mode m, ObjectInspector[] parameters)
  33. throws HiveException {
  34. assert (parameters.length == 1);
  35. super.init(m, parameters);
  36. //map阶段读取sql列,输入为String基础数据格式
  37. if (m == Mode.PARTIAL1 || m == Mode.COMPLETE) {
  38. inputOI = (PrimitiveObjectInspector) parameters[0];
  39. } else {
  40. //其余阶段,输入为Integer基础数据格式
  41. integerOI = (PrimitiveObjectInspector) parameters[0];
  42. }
  43. // 指定各个阶段输出数据格式都为Integer类型
  44. outputOI = ObjectInspectorFactory.getReflectionObjectInspector(Integer.class,
  45. ObjectInspectorOptions.JAVA);
  46. return outputOI;
  47. }
  48. /**
  49. * 存储当前字符总数的类
  50. */
  51. static class LetterSumAgg implements AggregationBuffer {
  52. int sum = 0;
  53. void add(int num){
  54. sum += num;
  55. }
  56. }
  57. @Override
  58. public AggregationBuffer getNewAggregationBuffer() throws HiveException {
  59. LetterSumAgg result = new LetterSumAgg();
  60. return result;
  61. }
  62. @Override
  63. public void reset(AggregationBuffer agg) throws HiveException {
  64. LetterSumAgg myagg = new LetterSumAgg();
  65. }
  66. private boolean warned = false;
  67. @Override
  68. public void iterate(AggregationBuffer agg, Object[] parameters)
  69. throws HiveException {
  70. assert (parameters.length == 1);
  71. if (parameters[0] != null) {
  72. LetterSumAgg myagg = (LetterSumAgg) agg;
  73. Object p1 = ((PrimitiveObjectInspector) inputOI).getPrimitiveJavaObject(parameters[0]);
  74. myagg.add(String.valueOf(p1).length());
  75. }
  76. }
  77. @Override
  78. public Object terminatePartial(AggregationBuffer agg) throws HiveException {
  79. LetterSumAgg myagg = (LetterSumAgg) agg;
  80. total += myagg.sum;
  81. return total;
  82. }
  83. @Override
  84. public void merge(AggregationBuffer agg, Object partial)
  85. throws HiveException {
  86. if (partial != null) {
  87. LetterSumAgg myagg1 = (LetterSumAgg) agg;
  88. Integer partialSum = (Integer) integerOI.getPrimitiveJavaObject(partial);
  89. LetterSumAgg myagg2 = new LetterSumAgg();
  90. myagg2.add(partialSum);
  91. myagg1.add(myagg2.sum);
  92. }
  93. }
  94. @Override
  95. public Object terminate(AggregationBuffer agg) throws HiveException {
  96. LetterSumAgg myagg = (LetterSumAgg) agg;
  97. total = myagg.sum;
  98. return myagg.sum;
  99. }
  100. }
  101. }

代码说明

这里有一些关于combiner的资源,Philippe Adjiman 讲得不错。

AggregationBuffer 允许我们保存中间结果,通过定义我们的buffer,我们可以处理任何格式的数据,在代码例子中字符总数保存在AggregationBuffer 。

  1. /**
  2. * 保存当前字符总数的类
  3. */
  4. static class LetterSumAgg implements AggregationBuffer {
  5. int sum = 0;
  6. void add(int num){
  7. sum += num;
  8. }
  9. }

这意味着UDAF在不同的mapreduce阶段会接收到不同的输入。Iterate读取我们表中的一行(或者准确来说是表),然后输出其他数据格式的聚集结果。

artialAggregation合并这些聚集结果到另外相同格式的新的聚集结果,然后最终的reducer取得这些聚集结果然后输出最终结果(该结果或许与接收数据的格式不一致)。

在init()方法中我们指定输入为string,结果输出格式为integer,还有,部分聚集结果输出格式为integer(保存在aggregation buffer中);terminate()terminatePartial()两者输出一个integer

  1. // init方法中根据不同的mode指定输出数据的格式objectinspector
  2. if (m == Mode.PARTIAL1 || m == Mode.COMPLETE) {
  3. inputOI = (PrimitiveObjectInspector) parameters[0];
  4. } else {
  5. integerOI = (PrimitiveObjectInspector) parameters[0];
  6. }
  7. // 不同model阶段的输出数据格式
  8. outputOI = ObjectInspectorFactory.getReflectionObjectInspector(Integer.class,
  9. ObjectInspectorOptions.JAVA);

iterate()函数读取到每行中列的字符串,计算与保存该字符串的长度

  1. public void iterate(AggregationBuffer agg, Object[] parameters)
  2. throws HiveException {
  3. ...
  4. Object p1 = ((PrimitiveObjectInspector) inputOI).getPrimitiveJavaObject(parameters[0]);
  5. myagg.add(String.valueOf(p1).length());
  6. }
  7. }

Merge函数增加部分聚集总数到AggregationBuffer

  1. public void merge(AggregationBuffer agg, Object partial)
  2. throws HiveException {
  3. if (partial != null) {
  4. LetterSumAgg myagg1 = (LetterSumAgg) agg;
  5. Integer partialSum = (Integer) integerOI.getPrimitiveJavaObject(partial);
  6. LetterSumAgg myagg2 = new LetterSumAgg();
  7. myagg2.add(partialSum);
  8. myagg1.add(myagg2.sum);
  9. }
  10. }

Terminate()函数返回AggregationBuffer中的内容,这里产生了最终结果。

  1. public Object terminate(AggregationBuffer agg) throws HiveException {
  2. LetterSumAgg myagg = (LetterSumAgg) agg;
  3. total = myagg.sum;
  4. return myagg.sum;
  5. }

使用自定义函数

  1. ADD JAR ./hive-extension-examples-master/target/hive-extensions-1.0-SNAPSHOT-jar-with-dependencies.jar;
  2. CREATE TEMPORARY FUNCTION letters as 'com.matthewrathbone.example.TotalNumOfLettersGenericUDAF';
  3. SELECT letters(name) FROM people;
  4. OK
  5. 44
  6. Time taken: 20.688 seconds

资料参考

 

Hive UDAF开发详解的更多相关文章

  1. Hive UDAF开发之同时计算最大值与最小值

    卷首语 前一篇文章hive UDAF开发入门和运行过程详解(转)里面讲过UDAF的开发过程,其中说到如果要深入理解UDAF的执行,可以看看求平均值的UDF的源码 本人在看完源码后,也还是没能十分理解里 ...

  2. Hadoop Hive sql语法详解

    Hadoop Hive sql语法详解 Hive 是基于Hadoop 构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据,可以将结构 化的数据文件 ...

  3. 大数据Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解

    微信公众号[程序员江湖] 作者黄小斜,斜杠青年,某985硕士,阿里 Java 研发工程师,于 2018 年秋招拿到 BAT 头条.网易.滴滴等 8 个大厂 offer,目前致力于分享这几年的学习经验. ...

  4. Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解

    转自:http://blog.csdn.net/iamdll/article/details/20998035 分类: 分布式 2014-03-11 10:31 156人阅读 评论(0) 收藏 举报 ...

  5. EasyPR--开发详解(6)SVM开发详解

    在前面的几篇文章中,我们介绍了EasyPR中车牌定位模块的相关内容.本文开始分析车牌定位模块后续步骤的车牌判断模块.车牌判断模块是EasyPR中的基于机器学习模型的一个模块,这个模型就是作者前文中从机 ...

  6. 基于H5的微信支付开发详解

    这次总结一下用户在微信内打开网页时,可以调用微信支付完成下单功能的模块开发,也就是在微信内的H5页面通过jsApi接口实现支付功能.当然了,微信官网上的微信支付开发文档也讲解的很详细,并且有实现代码可 ...

  7. ****基于H5的微信支付开发详解[转]

    这次总结一下用户在微信内打开网页时,可以调用微信支付完成下单功能的模块开发,也就是在微信内的H5页面通过jsApi接口实现支付功能.当然了,微信官网上的微信支付开发文档也讲解的很详细,并且有实现代码可 ...

  8. 【转发】NPAPI开发详解,Windows版

    NPAPI开发详解,Windows版 9 jiaofeng601, +479 9人支持,来自Meteor.猪爪.hanyuxinting更多 .是非黑白 .Yuan Xulei.hyolin.Andy ...

  9. 热烈祝贺华清远见《ARM处理器开发详解》第2版正式出版

    2014年6月,由华清远见研发中心组织多名业 内顶尖讲师编写的<ARM处理器开发详解>一书正式出版.本书以S5PV210处理器为平台,详细介绍了嵌入式系统开发的各个主要环节,并注重实践,辅 ...

随机推荐

  1. java环境安装(win7)

    首先,你应该已经安装了 java 的 JDK 了,笔者安装的是:jdk-7u13-windows-x64 接下来主要讲怎么配置 java 的环境变量,也是为了以后哪天自己忘记了做个备份 1.进入&qu ...

  2. setInterval 函数

    间隔指定的毫秒数不停地执行指定的代码 setInterval函数参数 codes -- 代码段的字符串表示(与eval函数的参数相同),或者是匿名函数.函数名 interval -- 间隔的毫秒数 s ...

  3. Struts2笔记1

    一.简介 1.作用于web层:Struts2是一种基于MVC模式的轻量级Web框架; 2.各文件夹简介:     apps:该文件夹存用于存放官方提供的Struts2示例程序,这些程序可以作为学习者 ...

  4. 关于com工程依赖的一些总结

    作者:朱金灿 来源:http://blog.csdn.net/clever101 一是com组件工程的依赖设置.比如A这个组件工程要使用B组件工程的类,要如何设置呢?具体就是先把在A工程里加上B工程的 ...

  5. Ubuntu 12.04搭建svn服务器【转】

    这是一个比较老旧的话题,毕竟大家现在都使用Git(http://git-scm.com/),Git在分支.代码存储.冲突.速度方面的机制都更优秀. 那我们难道还有使用svn的场景?当然,比如对Git很 ...

  6. 消除ImageButton背景图片

    下图被选为作为ImageButton的Src,可它自带了个灰色的背景图,而我只想用这个圆圈作为imageButton的src,这怎么办呢? 遇到此情况可以设置imagebutton的backgroun ...

  7. static int a

    static int a只被本文件可见,外部文件不可见;而int a如果在外部文件作以下声明: extern int a,那么它在声明的文件里也是可见的 详见:http://bbs.csdn.net/ ...

  8. File 与 Log #3--动态加入控件,[图片版]访客计数器(用.txt档案来记录)

    File 与 Log #3--动态加入控件,[图片版]访客计数器(用.txt档案来记录) 以前的两篇文章(收录在书本「上集」的第十七章) 请看「ASP.NET专题实务」,松岗出版 File 与 Log ...

  9. ABAP Netweaver, Hybris Commerce和SAP 云平台的登录认证

    ABAP Netweaver 在事务码SICF里选择一个服务,在明细页面对Procedure字段点击F1,查看Logon Procedure的帮助文档. 通过这个链接打开对应的帮助文档,可以看到下列七 ...

  10. VS打包方法(安装和部署简介)——内含大量图片,密症慎入!

    友情提示:内含大量文字.图片,密集恐惧症者慎入! 主要记述一下利用微软集成开发环境VS打包的方法和详细步骤. 1.新建打包工程 打开VS,文件->添加项目->新建项目(如图1),在添加新项 ...