1、编写udf类
  1. package hive.udf;
  2. import org.apache.hadoop.hive.ql.exec.Description;
  3. import org.apache.hadoop.hive.ql.exec.UDF;
  4. /**
  5. * UDF的说明文档
  6. * name是UDF的名称
  7. * value是desc function xx输出的内容
  8. * extended是desc function extended xx输出的内容
  9. *
  10. */
  11. @Description(name="uppernum",
  12. value="_FUNC_ the input is a num, the output is the UpperNum",
  13. extended="Example:\n" +
  14. "> select uppernum(1) from src \n")
  15. public class UpperNumUDF extends UDF {
  16. /**
  17. * UDF类需要自定义evaluate方法,可以重载多个
  18. *
  19. * evaluate的参数、返回值必须是hive可以序列化的类型
  20. *
  21. * 参数:
  22. * 1)可以是java基本类型、String
  23. * 2)可以是Text
  24. * 3)可以包含多个参数,参数类型也可以不同
  25. * 4)可以是List<?>。如果hive表字段是Array<?>类型的,则是List
  26. *
  27. * 返回值:
  28. * 1)必须有返回值,可以为null
  29. * 2)返回值只能是java基本类型、String、Writable
  30. *
  31. * 可以自定义 UDFMethodResolver来手动匹配方法的执行
  32. *
  33. * @param num
  34. * @return
  35. */
  36. public String evaluate(int num) {
  37. String str = "ERROR";
  38. switch (num) {
  39. case 0:
  40. str = "零";
  41. break;
  42. case 1:
  43. str = "壹";
  44. break;
  45. case 2:
  46. str = "贰";
  47. break;
  48. case 3:
  49. str = "叁";
  50. break;
  51. case 4:
  52. str = "肆";
  53. break;
  54. case 5:
  55. str = "伍";
  56. break;
  57. default:
  58. break;
  59. }
  60. return str;
  61. }
  62. public String evaluate(String num) {
  63. int intnum = 100;
  64. try {
  65. intnum = Integer.parseInt(num);
  66. } catch (NumberFormatException e) {
  67. }
  68. return evaluate(intnum);
  69. }
  70. }

2、打包类,将jar上传到hive所在机器上

3、启动hive,在hive会话里执行:
1)加载jar包
  1. hive (test)> add jar ${env:HOME}/udf.jar;
ps:jar包路径没有引号

2)创建uppernum 
  1. hive (test)> create [temporary] function uppernum as 'hive.udf.UpperNumUDF';
ps:创建的function,在hive会话结束后将消失,可以在.hiverc里设置,来确保每次hive启动时都执行create。

3)使用uppernum 
  1. hive (test)> select uppernum(2) from dual;
  2. OK
  3. Time taken: 0.118 seconds, Fetched: 1 row(s)
  4. hive (test)> select uppernum(5) from dual;
  5. OK

4)查看uppernum的说明文档
  1. hive (test)> desc function uppernum;
  2. OK
  3. uppernum the input is a num, the output is the UpperNum
  4. Time taken: 0.138 seconds, Fetched: 1 row(s)
  5. hive (test)> desc function extended uppernum;
  6. OK
  7. uppernum the input is a num, the output is the UpperNum
  8. Example:
  9. > select uppernum(1) from src
  10. Time taken: 0.138 seconds, Fetched: 4 row(s)

5)删除UDF
  1. hive> drop [temporary] function uppernum;
  2. OK
  3. Time taken: 0.221 seconds



附件列表

自定义UDF的更多相关文章

  1. Hive UDF IP解析(二):使用geoip2数据库自定义UDF

    开发中经常会碰到将IP转为地域的问题,所以以下记录Hive中自定义UDF来解析IP. 使用到的地域库位maxmind公司的geoIP2数据库,分为免费版GeoLite2-City.mmdb和收费版Ge ...

  2. 自定义udf添加一列

    //创建得分窗口字典 var dict= new mutable.HashMap[Double, Int]() ){ dict.put(result_Score(i),i) } //自定义Udf函数 ...

  3. 2.13 Hive中自带Function使用及自定义UDF编程

    UDF:User Definition Function 一.function #查看自带的函数 hive (db_hive)> show functions; #查看一个函数的详细用法 hiv ...

  4. 自定义UDF函数应用异常

    自定义UDF函数应用异常 版权声明:本文为yunshuxueyuan原创文章.如需转载请标明出处: http://www.cnblogs.com/sxt-zkys/QQ技术交流群:299142667 ...

  5. 如何给Apache Pig自定义UDF函数?

    近日由于工作所需,需要使用到Pig来分析线上的搜索日志数据,散仙本打算使用hive来分析的,但由于种种原因,没有用成,而Pig(pig0.12-cdh)散仙一直没有接触过,所以只能临阵磨枪了,花了两天 ...

  6. Hive 自定义UDF操作步骤

    Hive 自定义UDF操作步骤 需要自定义类,然后继承UDF 然后在方法envluate()方法里面实现具体的业务逻辑,打包上传到linux(以免出错打包成RunningJar) 一.创建临时函数 ( ...

  7. 【Spark篇】---SparkSQL中自定义UDF和UDAF,开窗函数的应用

    一.前述 SparkSQL中的UDF相当于是1进1出,UDAF相当于是多进一出,类似于聚合函数. 开窗函数一般分组取topn时常用. 二.UDF和UDAF函数 1.UDF函数 java代码: Spar ...

  8. 047 SparkSQL自定义UDF函数

    一:程序部分 1.需求 Double数据类型格式化,可以给定小数点位数 2.程序 package com.scala.it import org.apache.spark.{SparkConf, Sp ...

  9. Spark(十三)【SparkSQL自定义UDF/UDAF函数】

    目录 一.UDF(一进一出) 二.UDAF(多近一出) spark2.X 实现方式 案例 ①继承UserDefinedAggregateFunction,实现其中的方法 ②创建函数对象,注册函数,在s ...

随机推荐

  1. ScreenOper

    /// <summary> /// 屏幕操作类 /// Add by 2017-07-25 /// 1.屏幕生成Image 方法 /// 2.Image按百分比压缩 方法 /// 3.Im ...

  2. Scala的Trait详解

    http://article.yeeyan.org/view/178378/358355

  3. Ruby:Mechanize的使用教程

    小技巧 puts Mechanize::AGENT_ALIASES 可以打印出所有可用的user_agent puts Mechanize.instance_methods(false) 输出Mech ...

  4. 这个拖后腿的“in”

    问题之源 C# 7.2推出了全新的参数修饰符in,据说是能提升一定的性能,官方MSDN文档描述是: Add the in modifier to pass an argument by referen ...

  5. Font Awesome 4.0.3 提供了369个网页常用的矢量字体图标,新浪、人人 的矢量图标也到其中哟

    要求 必备知识 本文要求基本了解html与css前端代码. 运行环境 普通浏览器,兼容IE7 源码下载 下载地址 Font Awesome 为您提供了一套可缩放的字体矢量图标,可以快速自定义图标的大小 ...

  6. SpringDataJPA快速入门

    访问我的博客 前言 之前在学习 SpringBoot 框架的时候,使用到了 SpringData JPA,但是当时只是简单的查询,没有用到稍微复杂的查询. JPA 的 JPQL 语法规则对于简单的查询 ...

  7. NAT介绍

    NAT 即网络地址转换NAT作用:实现内网IP地址和公网IP地址之间的转换可以有效地缓解IP地址危机可以隐藏内网地址实现负载均衡实现内网和内网之间的通信 NAT分类:分类静态NAT:将内网IP地址一对 ...

  8. ResNet 论文研读笔记

    Deep Residual Learning for Image Recognition 原文链接 摘要 深度神经网络很难去训练,本文提出了一个残差学习框架来简化那些非常深的网络的训练,该框架使得层能 ...

  9. 并发编程之 LinkedBolckingQueue 源码剖析

    前言 JDK 1.5 之后,Doug Lea 大神为我们写了很多的工具,整个 concurrent 包基本都是他写的.也为我们程序员写好了很多工具,包括我们之前说的线程池,重入锁,线程协作工具,Con ...

  10. .20-浅析webpack源码之compile流程-Template模块

    这里的编译前指的是开始触发主要的事件流this-compilaiton.compilation之前,由于还有一些准备代码,这一节全部弄出来. 模块基本上只走构造函数,具体的方法调用的时候再具体讲解. ...