2.13 Hive中自带Function使用及自定义UDF编程

UDF：User Definition Function

一、function

#查看自带的函数

hive (db_hive)> show functions;

#查看一个函数的详细用法

hive (db_hive)> desc function extended split;

OK

tab_name

split(str, regex) - Splits str around occurances that match regex

Example:

  > SELECT split('oneAtwoBthreeC', '[ABC]') FROM src LIMIT 1;

  ["one", "two", "three"]

Time taken: 0.005 seconds, Fetched: 4 row(s)

二、UDF

https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF

https://cwiki.apache.org/confluence/display/Hive/HivePlugins #自定义UDF

Hive自带了一些函数，比如：max/min等，但是数量有限，自己可以通过自定义UDF来方便的扩展。

UDF：用户自定义函数，允许用户扩展HiveQL功能；

##

UDF（User-Defined-Function）

一进一出

UDAF（User-Defined Aggregation Funcation）

聚集函数，多进一出；类似于：count/max/min 

UDTF（User-Defined Table-Generating Functions）

一进多出；如lateral view explore（）

编程步骤：

1、继承org.apache.hadoop.hive.ql.UDF

2、需要实现evaluate函数；evaluate函数支持重载；

注意事项：

1、UDF必须要有返回类型，可以返回null，但是返回类型不能为void；

2、UDF中常用Text/LongWritable等类型，不推荐使用java类型；

创建一个UDF-方式一：

1、Creating Custom UDFs

### LowerUDF.java###

package com.beifeng.senior.hive.udf;

import org.apache.hadoop.hive.ql.exec.UDF;

import org.apache.hadoop.io.Text;

/**

 * 1. Implement one or more methods named

 * "evaluate" which will be called by Hive.

 *

 * 2."evaluate" should never be a void method. However it can return "null" if

 * needed.

 * @author root

 *

 */

public class LowerUDF extends UDF{

    public Text evaluate(Text str) {

        //validate

        if(null == str.toString()) {

            return null;

        }

        //lower

        return new Text (str.toString().toLowerCase());

    }

    public static void main(String[] args) {

        System.out.println(new LowerUDF().evaluate(new Text("HIVE")));

    }

}

#然后打成jar包

[root@hadoop-senior datas]# pwd

/opt/datas

[root@hadoop-senior datas]# ls hiveudf.jar

hiveudf.jar

2、usage

#添加

hive (db_hive)> add jar /opt/datas/hiveudf.jar;

Added /opt/datas/hiveudf.jar to class path

Added resource: /opt/datas/hiveudf.jar

#注册，my_lower是要注册的函数名，com.beifeng.senior.hive.udf.LowerUDF是类名

hive (db_hive)> create temporary function my_lower as "com.beifeng.senior.hive.udf.LowerUDF";

OK

Time taken: 0.012 seconds

#查看

hive (db_hive)> show functions;

...

my_lower

...

#测试使用

hive (db_hive)> select ename, my_lower(ename) lowername from emp limit 5;

Total jobs = 1

Launching Job 1 out of 1

Number of reduce tasks is set to 0 since there's no reduce operator

Starting Job = job_1554717689707_0031, Tracking URL = http://hadoop-senior.ibeifeng.com:8088/proxy/application_1554717689707_0031/

Kill Command = /opt/modules/hadoop-2.5.0/bin/hadoop job  -kill job_1554717689707_0031

Hadoop job information for Stage-1: number of mappers: 1; number of reducers: 0

2019-04-24 15:32:42,268 Stage-1 map = 0%,  reduce = 0%

2019-04-24 15:32:47,387 Stage-1 map = 100%,  reduce = 0%, Cumulative CPU 1.28 sec

MapReduce Total cumulative CPU time: 1 seconds 280 msec

Ended Job = job_1554717689707_0031

MapReduce Jobs Launched:

Job 0: Map: 1   Cumulative CPU: 1.28 sec   HDFS Read: 894 HDFS Write: 60 SUCCESS

Total MapReduce CPU Time Spent: 1 seconds 280 msec

OK

ename    lowername

SMITH    smith

ALLEN    allen

WARD    ward

JONES    jones

MARTIN    martin

Time taken: 10.548 seconds, Fetched: 5 row(s)

创建一个UDF-方式二：

此方法jar包要位于hdfs上；

CREATE FUNCTION myfunc AS 'myclass' USING JAR 'hdfs:///path/to/jar';

1、

##上传jar包到hdfs

hive (db_hive)> dfs -mkdir -p /user/root/hive/jars/;

hive (db_hive)> dfs -put /opt/datas/hiveudf.jar /user/root/hive/jars/;

hive (db_hive)> dfs -ls -R /user/root/hive/jars;

-rw-r--r--   1 root supergroup        910 2019-04-24 15:40 /user/root/hive/jars/hiveudf.jar

#创建function

hive (db_hive)> create function self_lower as 'com.beifeng.senior.hive.udf.LowerUDF' using jar 'hdfs://hadoop-senior.ibeifeng.com:8020/user/root/hive/jars/hiveudf.jar';

converting to local hdfs://hadoop-senior.ibeifeng.com:8020/user/root/hive/jars/hiveudf.jar

Added /tmp/5356b66f-bf56-4de6-abf8-30be8029fa8b_resources/hiveudf.jar to class path

Added resource: /tmp/5356b66f-bf56-4de6-abf8-30be8029fa8b_resources/hiveudf.jar

OK

Time taken: 0.025 seconds

#使用

hive (db_hive)> select ename, self_lower(ename) lowername from emp limit 5;

Total jobs = 1

Launching Job 1 out of 1

Number of reduce tasks is set to 0 since there's no reduce operator

Starting Job = job_1554717689707_0032, Tracking URL = http://hadoop-senior.ibeifeng.com:8088/proxy/application_1554717689707_0032/

Kill Command = /opt/modules/hadoop-2.5.0/bin/hadoop job  -kill job_1554717689707_0032

Hadoop job information for Stage-1: number of mappers: 1; number of reducers: 0

2019-04-24 15:53:28,378 Stage-1 map = 0%,  reduce = 0%

2019-04-24 15:53:33,504 Stage-1 map = 100%,  reduce = 0%, Cumulative CPU 1.35 sec

MapReduce Total cumulative CPU time: 1 seconds 350 msec

Ended Job = job_1554717689707_0032

MapReduce Jobs Launched:

Job 0: Map: 1   Cumulative CPU: 1.35 sec   HDFS Read: 894 HDFS Write: 60 SUCCESS

Total MapReduce CPU Time Spent: 1 seconds 350 msec

OK

ename    lowername

SMITH    smith

ALLEN    allen

WARD    ward

JONES    jones

MARTIN    martin

Time taken: 10.549 seconds, Fetched: 5 row(s)

2.13 Hive中自带Function使用及自定义UDF编程的更多相关文章

Hive中实现group concat功能（不用udf）
在 Hive 中实现将一个字段的多条记录拼接成一个记录: hive> desc t; OK id string str string Time taken: 0.249 seconds hive ...
Hive中的UDF详解
hive作为一个sql查询引擎,自带了一些基本的函数,比如count(计数),sum(求和),有时候这些基本函数满足不了我们的需求,这时候就要写hive hdf(user defined funati ...
切记ajax中要带上AntiForgeryToken防止CSRF攻击
在程序项目中经常看到ajax post数据到服务器没有加上防伪标记,导致CSRF被攻击,下面小编通过本篇文章给大家介绍ajax中要带上AntiForgeryToken防止CSRF攻击,感兴趣的朋友一起 ...
hive中UDF、UDAF和UDTF使用
Hive进行UDF开发十分简单,此处所说UDF为Temporary的function,所以需要hive版本在0.4.0以上才可以. 一.背景:Hive是基于Hadoop中的MapReduce,提供HQ ...
Hive中知识点
hive的最新学习资料:http://www.cnblogs.com/qingyunzong/p/8707885.html hive的参数设置大全:https://cwiki.apache.org/c ...
在hive中UDF和UDAF使用说明
Hive进行UDF开发十分简单,此处所说UDF为Temporary的function,所以需要hive版本在0.4.0以上才可以. 一.背景:Hive是基于Hadoop中的MapReduce,提供HQ ...
【转】hive中UDF、UDAF和UDTF使用
原博文出自于: http://blog.csdn.net/liuj2511981/article/details/8523084 感谢! Hive进行UDF开发十分简单,此处所说UDF为Tempora ...
Hive 中的 UDF
LanguageManual UDF 一.分类 UDF:User defined function 用户定义函数一进一出 UDAF:User defined aggregation function ...
如何在 Apache Hive 中解析 Json 数组
我们都知道,Hive 内部提供了大量的内置函数用于处理各种类型的需求,参见官方文档:Hive Operators and User-Defined Functions (UDFs).我们从这些内置的 ...

随机推荐

PC常用电源IC、MOS、三极管、二极管厂家
笔记本常用MOS.三极管.二极管厂家: 1.EMC 杰力电子(台湾)官方网站:http://www.excelliancemos.com/tw/solution.php 2.UBIQ(台湾电源厂家UP ...
Oracle pipe
初次接触到Report ,看到了它背后复杂的SQL操作, 首先看到了一个Pipe,先了解下PIPE的用法: 关键字PIPELINED表明这是一个oracle管道函数,oracle管道函数的返回值类型必 ...
每天一个linux命令（23）：Linux 目录结构（转）
对于每一个Linux学习者来说,了解Linux文件系统的目录结构,是学好Linux的至关重要的一步.,深入了解linux文件目录结构的标准和每个目录的详细功能,对于我们用好linux系统只管重要,下面 ...
Android 开发之static引发的冤案
前段时间在android手机系统上开发一个小东西,先介绍一下他吧: 就是当手指点击屏幕不论什么地方的时候会出现点击的特效,就是在你点击屏幕的地方会出现各种效果,比方:雪花纷飞;出现五彩的肥皂泡:鲜花盛 ...
【转】IDA Pro7.0使用技巧总结
俗话说,工欲善其事,必先利其器,在二进制安全的学习中,使用工具尤为重要,而IDA又是玩二进制的神器,以前在使用IDA的时候,只是用几个比较常用的功能,对于IDA的其他功能没有去研究,于是本着学习的精神 ...
ElasticSearch（十四) _search api search timeout 机制
语法:timeout=10ms,timeout=1s,timeout=1m GET /_search?timeout=10m timeout:默认无timeout,latency平衡completen ...
Android笔记之获取显示器宽高
原先的Display.getWidth().Display.getHeight()已废弃推荐的获取Display宽高的方法如下 DisplayMetrics metrics = new Displa ...
duilib查看过的资料整理
1.duilib中各个类的简单介绍 2.源码分析 3.各个控件可以设置的属性 4.duilib的消息流程处理 5.工程编译入门 6.MFC中混合使用duilib制作界面 7.从Win32窗口到duil ...
牛客练习赛14 D 比较月亮大小【水】
链接:https://www.nowcoder.com/acm/contest/82/D 来源:牛客网比较月亮大小时间限制:C/C++ 1秒,其他语言2秒空间限制:C/C++ 262144K,其 ...
dokcer3
安装好的文件位置: /usr/sbin/nginx:主程序 /etc/nginx:存放配置文件 /usr/share/nginx:存放静态文件 /var/log/nginx:存放日志其实从上面的根目 ...

2.13 Hive中自带Function使用及自定义UDF编程

2.13 Hive中自带Function使用及自定义UDF编程的更多相关文章

随机推荐

热门专题