编写Apache Hive用户自定义函数（UDF）有两个不同的接口，一个非常简单，另一个...就相对复杂点。

如果你的函数读和返回都是基础数据类型（Hadoop&Hive 基本writable类型，如Text,IntWritable,LongWriable,DoubleWritable等等），那么简单的API（org.apache.hadoop.hive.ql.exec.UDF）可以胜任

但是，如果你想写一个UDF用来操作内嵌数据结构，如Map，List和Set，那么你要去熟悉org.apache.hadoop.hive.ql.udf.generic.GenericUDF这个API

简单API： org.apache.hadoop.hive.ql.exec.UDF
复杂API： org.apache.hadoop.hive.ql.udf.generic.GenericUDF

接下来我将通过一个示例为上述两个API建立UDF，我将为接下来的示例提供代码与测试
如果你想浏览代码：fork it on Github：https://github.com/rathboma/hive-extension-examples

简单API

用简单UDF API来构建一个UDF只涉及到编写一个类继承实现一个方法（evaluate），以下是示例：

class SimpleUDFExample extends UDF {
public Text evaluate(Text input) {
return new Text("Hello " + input.toString());
}
}

因为该UDF是一个简单的函数，你可以在规范的测试工具测试它，如JUnit。

public class SimpleUDFExampleTest {
@Test
public void testUDF() {
SimpleUDFExample example = new SimpleUDFExample();
Assert.assertEquals("Hello world", example.evaluate(new Text("world")).toString());
}
}

好的，在Hive控制台测试一把，也可以在hive中直接测试这个UDF，特别是当你不完全肯定该函数是否能够正确处理问题的时候

%> hive
hive> ADD JAR target/hive-extensions-1.0-SNAPSHOT-jar-with-dependencies.jar;
hive> CREATE TEMPORARY FUNCTION helloworld as 'com.matthewrathbone.example.SimpleUDFExample';
hive> select helloworld(name) from people limit 1000;

事实上，上述UDF有一个bug，不会去检查null参数，null在一个大的数据集当中是很常见的，所以要适当严谨点。作为回应，这边在函数中加了一个null检查

class SimpleUDFExample extends UDF {
public Text evaluate(Text input) {
if(input == null) return null;
return new Text("Hello " + input.toString());
}
}

然后加了一个测试去验证它

@Test
public void testUDFNullCheck() {
SimpleUDFExample example = new SimpleUDFExample();
Assert.assertNull(example.evaluate(null));
}

用mvn test跑一下测试，来保证所有用例通过。

复杂的API

org.apache.hadoop.hive.ql.udf.generic.GenericUDF API提供了一种方法去处理那些不是可写类型的对象，例如：struct，map和array类型。

这个API需要你亲自去为函数的参数去管理对象存储格式（object inspectors），验证接收的参数的数量与类型。一个object inspector为内在的数据类型提供一个一致性接口，以至不同实现的对象可以在hive中以一致的方式去访问（例如，只要你能提供一个对应的object inspector，你可以实现一个如Map的复合对象）。

这个API要求你去实现以下方法：

// 这个类似于简单API的evaluat方法，它可以读取输入数据和返回结果
abstract Object evaluate(GenericUDF.DeferredObject[] arguments);
// 该方法无关紧要，我们可以返回任何东西，但应当是描述该方法的字符串
abstract String getDisplayString(String[] children);
// 只调用一次，在任何evaluate()调用之前，你可以接收到一个可以表示函数输入参数类型的object inspectors数组
// 这是你用来验证该函数是否接收正确的参数类型和参数个数的地方
abstract ObjectInspector initialize(ObjectInspector[] arguments);

可能要通过一个示例才能去了解这个接口，所以接下来往下看。

示例

我将通过建立一个UDF函数：containsString，来加深对该API了解，该函数接收两个参数：
一个String的列表（list）
一个String

根据该list中是否包含所提供的string来返回true或者false，如下：

containsString(List("a", "b", "c"), "b"); // true
containsString(List("a", "b", "c"), "d"); // false

不同于UDF接口，这个GenericUDF接口需要更啰嗦点。

class ComplexUDFExample extends GenericUDF {
ListObjectInspector listOI;
StringObjectInspector elementOI;
@Override
public String getDisplayString(String[] arg0) {
return "arrayContainsExample()"; // this should probably be better
}
@Override
public ObjectInspector initialize(ObjectInspector[] arguments) throws UDFArgumentException {
if (arguments.length != 2) {
throw new UDFArgumentLengthException("arrayContainsExample only takes 2 arguments: List<T>, T");
}
// 1. 检查是否接收到正确的参数类型
ObjectInspector a = arguments[0];
ObjectInspector b = arguments[1];
if (!(a instanceof ListObjectInspector) || !(b instanceof StringObjectInspector)) {
throw new UDFArgumentException("first argument must be a list / array, second argument must be a string");
}
this.listOI = (ListObjectInspector) a;
this.elementOI = (StringObjectInspector) b;
// 2. 检查list是否包含的元素都是string
if(!(listOI.getListElementObjectInspector() instanceof StringObjectInspector)) {
throw new UDFArgumentException("first argument must be a list of strings");
}
// 返回类型是boolean，所以我们提供了正确的object inspector
return PrimitiveObjectInspectorFactory.javaBooleanObjectInspector;
}
@Override
public Object evaluate(DeferredObject[] arguments) throws HiveException {
// 利用object inspectors从传递的对象中得到list与string
List<String> list = (List<String>) this.listOI.getList(arguments[0].get());
String arg = elementOI.getPrimitiveJavaObject(arguments[1].get());
// 检查空值
if (list == null || arg == null) {
return null;
}
// 判断是否list中包含目标值
for(String s: list) {
if (arg.equals(s)) return new Boolean(true);
}
return new Boolean(false);
}
}

代码走读

函数的调用模块如下：

1、该UDF用默认的构造器来初始化

2、udf.initialize() 被调用，传人udf参数的object instructors数组，（ListObjectInstructor, StringObjectInstructor）
1) 检查传人的参数有两个与该参数的数据类型是正确的（见上面）
2) 我们保存object instructors用以供evaluate()使用（listOI, elementOI）
3) 返回 object inspector，让Hive能够读取该函数的返回结果（BooleanObjectInspector）

3、对于查询中的每一行，evaluate方法都会被调用，传人该行的指定的列（例如，evaluate(List(“a”, “b”, “c”), “c”) ）。
1) 我们利用initialize方法中存储的object instructors来抽取出正确的值。
2) 我们在这处理我们的逻辑然后用initialize返回的object inspector来序列化返回来的值(list.contains(elemement) ? true : false)。

测试

测试该函数比较复杂的部分是初始化，一旦调用顺序明确了，我们就知道怎么去构建该对象测试流程，非常简单。

public class ComplexUDFExampleTest {
@Test
public void testComplexUDFReturnsCorrectValues() throws HiveException {
// 建立需要的模型
ComplexUDFExample example = new ComplexUDFExample();
ObjectInspector stringOI = PrimitiveObjectInspectorFactory.javaStringObjectInspector;
ObjectInspector listOI = ObjectInspectorFactory.getStandardListObjectInspector(stringOI);
JavaBooleanObjectInspector resultInspector = (JavaBooleanObjectInspector) example.initialize(new ObjectInspector[]{listOI, stringOI});
// create the actual UDF arguments
List<String> list = new ArrayList<String>();
list.add("a");
list.add("b");
list.add("c");
// 测试结果
// 存在的值
Object result = example.evaluate(new DeferredObject[]{new DeferredJavaObject(list), new DeferredJavaObject("a")});
Assert.assertEquals(true, resultInspector.get(result));
// 不存在的值
Object result2 = example.evaluate(new DeferredObject[]{new DeferredJavaObject(list), new DeferredJavaObject("d")});
Assert.assertEquals(false, resultInspector.get(result2));
// 为null的参数
Object result3 = example.evaluate(new DeferredObject[]{new DeferredJavaObject(null), new DeferredJavaObject(null)});
Assert.assertNull(result3);
}
}

结束语

希望这篇文章能够让你了解通过集成怎么去编写hive的自定义函数。
虽然在这篇文章中有一些其他的东西没提及到，但是另外有UDAF函数与UDTF函数，UDAF函数能够在一个函数中处理与聚集多行数据，如果你更感兴趣，这里有一些资源可以提供帮助。

另外，值得一读的书籍有Apache Hive Book from O’Reilly该数包含UDF与UDAF的简明的教程，和代码示例，更容易让你们明白如何去构建这些函数、什么异常你必须要指定、什么类型你必须返回

翻译来自于

http://blog.matthewrathbone.com/2013/08/10/guide-to-writing-hive-udfs.html

Hive UDF开发指南的更多相关文章

最强最全面的Hive SQL开发指南，超四万字全面解析
本文整体分为两部分,第一部分是简写,如果能看懂会用,就直接从此部分查,方便快捷,如果不是很理解此SQL的用法,则查看第二部分,是详细说明,当然第二部分语句也会更全一些! 第一部分: hive模糊搜索表 ...
Hive UDF开发-简介
Hive进行UDF开发十分简单,此处所说UDF为Temporary的function,所以需要hive版本在0.4.0以上才可以. Hive的UDF开发只需要重构UDF类的evaluate函数即可.例 ...
Hive UDF开发第一个例子
package udf; import org.apache.hadoop.hive.ql.exec.UDF; public class helloudf extends UDF{ public St ...
Hive UDTF开发指南
在这篇文章中,我们将深入了解用户定义表函数(UDTF),该函数的实现是通过继承org.apache.Hadoop.hive.ql.udf.generic.GenericUDTF这个抽象通用类,UDTF ...
Hive UDF开发实例学习
1. 本地环境配置必须包含的一些包. http://blog.csdn.net/azhao_dn/article/details/6981115 2. 去重UDF实例 http://blog.csd ...
hive UDF函数
虽然Hive提供了很多函数,但是有些还是难以满足我们的需求.因此Hive提供了自定义函数开发自定义函数包括三种UDF.UADF.UDTF UDF(User-Defined-Function) ...
Hive UDAF开发之同时计算最大值与最小值
卷首语前一篇文章hive UDAF开发入门和运行过程详解(转)里面讲过UDAF的开发过程,其中说到如果要深入理解UDAF的执行,可以看看求平均值的UDF的源码本人在看完源码后,也还是没能十分理解里 ...
2、Hive UDF编程实例
Hive的UDF包括3种:UDF(User-Defined Function).UDAF(User-Defined Aggregate Function)和UDTF(User-Defined Tabl ...
HADOOP docker(六):hive简易使用指南
前言1.hive简介1.1 hive组件与相应功能:1.2 hive的表类型1.3 分区表1.3 分隔符1.4 hive的数据存储2.数据类型2.1 基本数据类型2.1 复杂数据类型2.3 NULL3 ...

随机推荐

cucumber的hooks
引用链接:https://github.com/cucumber/cucumber/wiki/Hooks Hooks Cucumber provides a number of hooks which ...
Elasticsearch在后台启动
Elasticsearch在linux下使用命令sh elasticsearch start,按键ctrl+c的时候程序就会stop掉,如何将程序在后台启动呢? 需要使用:./elasticsearc ...
liunx下文件授权可执行权限chmod
Cannot find ./catalina.sh The file is absent or does not have execute permission This file is needed ...
HttpClient向后端的WebAPI工程发送HTTP的Post请求时，返回超过了最大请求长度的异常的解决方法
文章中的内容以及解决思路参考(转载)的 http://www.jb51.net/article/88698.htm 在WPF项目中通过HttpClient向后端的WebAPI工程发送HTTP的Post ...
《C#高效编程》读书笔记11-理解短小方法的优势
我们最好尽可能的编写最清晰的代码,将优化交给JIT编译器完成.一个常见的错误优化是,将大量逻辑放在一个函数中,以期减少额外的方法调用开销.这种将函数逻辑直接写在循环内部的常见优化做法却会降低.NET应 ...
Cypress测试工具
参考博客: https://testerhome.com/articles/19035 最近一段时间学习了cypress的测试工具, 她是一个端到端的测试web工具. 环境准备 1.工具:vs co ...
thymeleaf 模板语言简介
参考网址: https://blog.csdn.net/mlin_123/article/details/51816533 1.1 Thymeleaf 在有网络和无网络的环境下皆可运行,而且完全不需启 ...
关于dom4j在maven中的使用
在maven中添加dom4j的依赖, (如何使用eclipse构建maven项目, 这里就不在赘述) <!-- https://mvnrepository.com/artifact/org.do ...
Invoke 和 BeginInvoke 的区别（转发）
在Invoke或者BeginInvoke的使用中无一例外地使用了委托Delegate. 一.为什么Control类提供了Invoke和BeginInvoke机制? 关于这个问题的最主要的原因已经是do ...
crontab配置shell实现后台进程不间断运行
检测get_report_no.php进程是否一直在运行 #!/bin/bash PROC=`ps -ef |grep get_report_no.php|grep -v grep|wc -l` if ...

Hive UDF开发指南