Hadoop3集群搭建之——hive添加自定义函数UDF

上篇：

下篇：

hive 提供的函数，总是不能很贴切的满足我们程序的需要，这时候就需要自定义hive的函数了

hive 函数，大概分为三种：

udf : 一行输入，一行输出

udtf : 一行输入，多行输出

udaf : 多行输入，一行输出，一般在group by中使用group by

不多说，直接开始编写。

1、UDF函数

我们的用户id，使用固定格式，如 000000001、000000002.。。。。。这样递增

在把用户每日数据，写入hbase的时候，设计row key 为：userid_yyyymmdd，这样有一个问题，由于hbase存储是以row key 递增的，

就会导致数据不均衡，随机读写命中率低（hbase读的时候，会吧row key附近的block块都读上来）。

然后，就需要把userid，翻转一下，如下：


。

。

。

基本这样，在使用hive算数据的时候，就把userid翻转一下，拼上当天的日期，rowkey 就出来了

下面开始编写revert 函数，代码上传到码云：https://gitee.com/SpringMoon-Venn/hivefunction

简单介绍一下：

hive function是个简单的java项目，只加载了两个jar包：hive-exec包和hadoop-common包

<!--hive 2.3. 最新不会用，退回旧版-->

        <dependency>

            <groupId>org.apache.hive</groupId>

            <artifactId>hive-exec</artifactId>

            <version>1.2.</version>

        </dependency>

        <!--hadoop common-->

        <dependency>

            <groupId>org.apache.hadoop</groupId>

            <artifactId>hadoop-common</artifactId>

            <version>3.0.</version>

            <scope>provided</scope>

        </dependency>

上具体代码：

public class RevertString extends UDF {

    /**

     * evalute function: use overload 可以重载，自动识别

     * @param str

     * @return

     */

    public String evaluate(String str) {

        // if string is null or ""

        if(org.apache.commons.lang.StringUtils.isEmpty(str.trim())){

            return "";

        }

        int len = str.length();

        char[] chars = new char[len];

        // revert string

        for(int i=; i < len; i++){

            chars[i] = str.charAt(len - i -);

        }

        return new String(chars).toString();

    }

}

hive UDF函数，主要是继承UDF类，实现 evaluate方法，最后返回的即时转换后的字符串。

由于使用maven做项目管理，直接使用 mvn package，打包，jar包如下：

上传到服务器。

在 $HIVE_HOME/bin 创建.hiverc 文件

添加如下内容：

[hadoop@venn05 bin]$ more .hiverc

add jar /opt/hadoop/lib/hivefunction-1.0-SNAPSHOT.jar;

create temporary function revert_string as 'com.venn.udf.RevertString';

关闭hive client，重新打开，使用自定义函数：

hive>

    > select revert_string(userid),userid from sqoop_test limit ;

OK

Hadoop3集群搭建之——hive添加自定义函数UDF的更多相关文章

Hadoop3集群搭建之——hive添加自定义函数UDTF （一行输入，多行输出）
上篇: Hadoop3集群搭建之——虚拟机安装 Hadoop3集群搭建之——安装hadoop,配置环境 Hadoop3集群搭建之——配置ntp服务 Hadoop3集群搭建之——hive安装 Hadoo ...
Hadoop3集群搭建之——hive添加自定义函数UDTF
上篇: Hadoop3集群搭建之——虚拟机安装 Hadoop3集群搭建之——安装hadoop,配置环境 Hadoop3集群搭建之——配置ntp服务 Hadoop3集群搭建之——hive安装 Hadoo ...
Hadoop3集群搭建之——hive安装
Hadoop3集群搭建之——虚拟机安装 Hadoop3集群搭建之——安装hadoop,配置环境 Hadoop3集群搭建之——配置ntp服务 Hadoop3集群搭建之——hbase安装及简单操作现在到 ...
Hadoop3集群搭建之——hbase安装及简单操作
折腾了这么久,hbase终于装好了 ------------------------- 上篇: Hadoop3集群搭建之——虚拟机安装 Hadoop3集群搭建之——安装hadoop,配置环境 Hado ...
Hadoop3集群搭建之——配置ntp服务
上篇: Hadoop3集群搭建之——虚拟机安装 Hadoop3集群搭建之——安装hadoop,配置环境下篇: Hadoop3集群搭建之——hive安装 Hadoop3集群搭建之——hbase安装及简 ...
Hadoop3集群搭建之——安装hadoop，配置环境
接上篇:Hadoop3集群搭建之——虚拟机安装下篇:Hadoop3集群搭建之——配置ntp服务 Hadoop3集群搭建之——hive安装 Hadoop3集群搭建之——hbase安装及简单操作上篇已 ...
Hadoop3集群搭建之——虚拟机安装
现在做的项目是个大数据报表系统,刚开始的时候,负责做Java方面的接口(项目前端为独立的Java web 系统,后端也是Java web的系统,前后端系统通过接口传输数据),后来领导觉得大家需要多元化 ...
集群搭建之Hive配置要点
注意点: 在启动Hive 的时候要先启动Hadoop和MySQL服务. Mysql 和 Hive 搭建在 yan00机器上. part1:MySQL配置相关安装和配置相关命令: Yum instal ...
Hive2.1.1集群搭建
软件环境: linux系统: CentOS6.7 Hadoop版本: 2.6.5 zookeeper版本: 3.4.8 主机配置: 一共m1, m2, m3这五部机, 每部主机的用户名都为centos ...

随机推荐

关于RAID的概述
Raid 0:一块硬盘或者以上就可做raid0优势:数据读取写入最快,最大优势提高硬盘容量,比如3快80G的硬盘做raid0 可用总容量为240G.速度是一样.缺点:无冗余能力,一块硬盘损坏,数据全无 ...
Python delattr() 函数
Python delattr() 函数 Python 内置函数描述 delattr 函数用于删除属性. delattr(x, 'foobar') 相等于 del x.foobar. 语法 dela ...
扩展欧几里得 hdu 1576
题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=1576 不知道扩展欧几里得的同学可以参考:https://blog.csdn.net/zhjchengf ...
Array 遍历数组
public static void main(String args){ int a[][] = new int[3][4]; for(int i=0;i<a.length;i++){ for ...
Mac上反编译Android apk安装包
什么是反编译我们知道,Android的程序打包后会生成一个APK文件,这个文件可以直接安装到任何Android手机上,因此,反编译就是对这个APK进行反编译.Android的反编译分成两个部分: 一 ...
TZOJ 1937 Hie with the Pie(floyd+状压dp)
描述 The Pizazz Pizzeria prides itself in delivering pizzas to its customers as fast as possible. Unfo ...
Delphi: RTTI与ini配置文件
项目以Rtti特性做文件参数配置,简化每项读写ini操作,记录以做备忘,代码如下: unit uGlobal; interface uses Windows, Messages, SysUtils, ...
项目总结03：window.open()方法用于子窗口数据回调至父窗口，即子窗口操作父窗口
window.open()方法用于子窗口数据回调至父窗口,即子窗口操作父窗口项目中经常遇到一个业务逻辑:在A窗口中打开B窗口,在B窗口中操作完以后关闭B窗口,同时自动刷新A窗口(或局部更新A窗口)( ...
Volley框架原理
Volley有如下优点: 1. 自动调度网络请求 2. 多并发请求 (源于开了多个线程)3. 本地Cache自动缓存网络请求结果 4. 支持设置请求优先级 5. 支持取消单个请求或者取消所有请求 6. ...
动态规划：压缩编码；WirelessRouters；
转载请注明~ 如果有理解不到位或错误的情况,劳烦大神指正,一定感激不尽! 题目来源:CCF201612-4 压缩编码题目的意思是: 1. 顺序给定文字中n个单词出现的频率(次数): 2. 对这n个单 ...

Hadoop3集群搭建之——hive添加自定义函数UDF

Hadoop3集群搭建之——hive添加自定义函数UDF的更多相关文章

随机推荐

热门专题