Impala 加载Hive的UDF

Impala的UDF有两种：

　　Native Imapal UDF:使用C++开发的，性能极高，官方性能测试比第二种高出将近10倍

　　Hive的UDF:是Hive中的UDF，直接加载到Impala中，优点是不需要任何改动，完全跟Hive中用法相同

本文介绍第二种方式，在Impala中直接加载Hive的UDF

如在Hive中有一个UDF为get_json_object，用于解析Json，但是Imapla中没有类似的函数。

1. 该function所在的jar包是/usr/lib/hive/lib/hive-exec-1.1.0-cdh5.13.0.jar，

[cloudera@quickstart lib]$ jar tf hive-exec-1.1.0-cdh5.13.0.jar|grep UDFJson

org/apache/hadoop/hive/ql/udf/UDFJson$AddingList.class

org/apache/hadoop/hive/ql/udf/UDFJson.class

org/apache/hadoop/hive/ql/udf/UDFJson$HashCache.class

org/apache/hadoop/hive/ql/udf/UDFJson$1.class

2.把jar包上传到hdfs的目录中，如下：

 hdfs dfs -put /usr/lib/hive/lib/hive-exec-1.1.0-cdh5.13.0.jar /user/cloudera/lib/hive-udf.jar

3.在Impala Shell中创建function，其中Symbol指向类名称：https://github.com/apache/hive/blob/branch-0.14/ql/src/java/org/apache/hadoop/hive/ql/udf/UDFJson.java

create function if not exists get_json_object(String,String) returns String location "/user/cloudera/lib/hive-udf.jar" SYMBOL="org.apache.hadoop.hive.ql.udf.UDFJson";

[quickstart.cloudera:21000] > show functions;

Query: show functions

+-------------+---------------------------------+-------------+---------------+

| return type | signature                       | binary type | is persistent |

+-------------+---------------------------------+-------------+---------------+

| STRING      | get_json_object(STRING, STRING) | JAVA        | false         |

+-------------+---------------------------------+-------------+---------------+

4.在Impala shell中使用

[quickstart.cloudera:21000] > select get_json_object(test1.content,'$.userId') from test1;

Query: select get_json_object(test1.content,'$.userId') from test1

Query submitted at: 2018-06-28 04:19:44 (Coordinator: http://quickstart.cloudera:25000)

Query progress can be monitored at: http://quickstart.cloudera:25000/query_plan?query_id=4241f9deab0498e2:ab9c00fd00000000

+--------------------------------------------------------------------+

| get_json_object(report_data.content, '$.userid') |

+--------------------------------------------------------------------+

| 16                                                                 |

| 15                                                                 |

| 8                                                                  |

+--------------------------------------------------------------------+

验证可以使用

Impala 加载Hive的UDF的更多相关文章

kylin加载hive表错误：ERROR [http-bio-7070-exec-10] controller.TableController:189 : org/apache/hadoop/hive/conf/HiveConf java.lang.NoClassDefFoundError: org/apache/hadoop/hive/conf/HiveConf 解决办法
一.问题背景在kylin中加载hive表时,弹出提示框,内容是“oops!org/apache/hadoop/hive/conf/HiveConf”,无法加载hive表,查找kylin的日志时发现, ...
SPARK_sql加载,hive以及jdbc使用
sql加载格式或者下面这种直接json加载或者下面这种spark的text加载以及rdd的加载上述记得配置文件加入.mastrt("local")或者spark://m ...
Hive记录-Impala jdbc连接hive和kudu参考
1.配置环境Eclipse和JDK 2.加载hive jar包或者impala jar包备注:从CDH集群里面拷贝出来下载地址:https://www.cloudera.com/downloads ...
Impala数据处理（加载和存储）
不多说,直接上干货! Hive与Impala都是构建在Hadoop之上的数据查询工具,那么在实际的应用中,它们是如何加载和存储数据的呢? Hive和Impala存储和加载表,和所有的关系型数据库一样, ...
spark SQL （五）数据源 Data Source----json hive jdbc等数据的的读取与加载
1,JSON数据集 Spark SQL可以自动推断JSON数据集的模式,并将其作为一个Dataset[Row].这个转换可以SparkSession.read.json()在一个Dataset[Str ...
Hive中数据的加载和导出
原文:http://blog.javachen.com/2014/06/09/hive-data-manipulation-language.html 关于 Hive DML 语法,你可以参考 apa ...
Hive学习之四《Hive分区表场景案例应用案例，企业日志加载》详解
文件的加载,只需要三步就够了,废话不多说,来直接的吧. 一.建表话不多说,直接开始. 建表,对于日志文件来说,最后有分区,在此案例中,对年月日和小时进行了分区. 建表tracktest_log,分隔 ...
关于hive ，eclipse老是提示加载不到驱动
忙活了好长时间,很纳闷为什么加载不上驱动,驱动包.hive的依赖包.hadoop的依赖包也引入了,各种百度最后: hadoop-2.2.0/share/hadoop/common/hadoop-com ...
hive 压缩全解读(hive表存储格式以及外部表直接加载压缩格式数据)；HADOOP存储数据压缩方案对比（LZO,gz，ORC）
数据做压缩和解压缩会增加CPU的开销,但可以最大程度的减少文件所需的磁盘空间和网络I/O的开销,所以最好对那些I/O密集型的作业使用数据压缩,cpu密集型,使用压缩反而会降低性能. 而hive中间结果 ...

随机推荐

Vue父子组件生命周期执行顺序及钩子函数的个人理解
先附一张官网上的vue实例的生命周期图,每个Vue实例在被创建的时候都需要经过一系列的初始化过程,例如需要设置数据监听,编译模板,将实例挂载到DOM并在数据变化时更新DOM等.同时在这个过程中也会运行 ...
response提交原理（转）
摘自:http://blog.csdn.net/quechao123/article/details/6256653 http://jorton468.blog.163.com/blo ...
jsp继承rapid库
如果jsp不使用继承方式开发,而是用标准的指令或动作元素去include,实在是太多重复代码. rapid-framework是谷歌的一个项目,可以实现jsp网页的继承,也就是书写模板页. 但是在ma ...
SQL Server修改表结构，不允许保存更改。
当修改表结构时,sql server会弹出对话框,显示以下内容: 不允许保存更改.您所做的更改要求删除并重新创建以下表.您对无法重新创建的表进行了更改或者启用了“阻止保存要求重新创建表的更改”选项. ...
C++Array类模板编写笔记
C++Array类模板函数模板和类模板都属于泛型技术,利用函数模板和类模板来创建一个具有通用功能的函数和类,以支持多种不同的形参,从而进一步简化重载函数的函数体设计. 声明方法:template&l ...
数据结构（二） --- 伸展树（Splay Tree）
文章图片和代码来自邓俊辉老师课件概述伸展树(Splay Tree),也叫分裂树,是一种二叉排序树,它能在O(log n)内完成插入.查找和删除操作.它由丹尼尔·斯立特Daniel Sleator ...
sql server用户密码批量MD5加密
nodejs自带加密模块md5加密: var crypto = require('crypto'); function cryptoMD5(content){ var md5 = crypto.cre ...
Aspose.Cells 对excel的使用总结
using System;using System.Collections.Generic;using System.ComponentModel;using System.Data;using Sy ...
zookeeper【4】master选举
考虑7*24小时向外提供服务的系统,不能有单点故障,于是我们使用集群,采用的是Master+Slave.集群中有一台主机和多台备机,由主机向外提供服务,备机监听主机状态,一旦主机宕机,备机必需迅速接 ...
Spring相关概念的理解理解
spring 框架的优点是一个轻量级比较简单易学的框架,实际使用中的有点优点有哪些呢!1.降低了组件之间的耦合性 ,实现了软件各层之间的解耦 2.可以使用容易提供的众多服务,如事务管理,消息服务等 3 ...

Impala 加载Hive的UDF

Impala 加载Hive的UDF的更多相关文章

随机推荐

热门专题