Hadoop3集群搭建之——hive添加自定义函数UDTF （一行输入，多行输出）

上篇：

上篇中，udtf函数，只有为一行输入，一行输出。udtf是可以一行输入，多行输出的。

简述下需求：　　

输入开始时间，结束时间，返回每个小时的时长

直接上代码：

package com.venn.udtf;

import org.apache.hadoop.hive.ql.exec.UDFArgumentException;

import org.apache.hadoop.hive.ql.exec.UDFArgumentLengthException;

import org.apache.hadoop.hive.ql.metadata.HiveException;

import org.apache.hadoop.hive.ql.udf.generic.GenericUDTF;

import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspector;

import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspectorFactory;

import org.apache.hadoop.hive.serde2.objectinspector.StructObjectInspector;

import org.apache.hadoop.hive.serde2.objectinspector.primitive.PrimitiveObjectInspectorFactory;

import java.util.ArrayList;

/**

 * Created by venn on 5/20/2018.

 * SplitHour : split hour

 */

public class SplitHour extends GenericUDTF {

    /**

     * add the column name

     * @param args

     * @return

     * @throws UDFArgumentException

     */

    @Override

    public StructObjectInspector initialize(ObjectInspector[] args) throws UDFArgumentException {

        if (args.length != 1) {

            throw new UDFArgumentLengthException("ExplodeMap takes only one argument");

        }

        if (args[0].getCategory() != ObjectInspector.Category.PRIMITIVE) {

            throw new UDFArgumentException("ExplodeMap takes string as a parameter");

        }

        ArrayList<String> fieldNames = new ArrayList<String>();

        ArrayList<ObjectInspector> fieldOIs = new ArrayList<ObjectInspector>();

        fieldNames.add("begintime");

        fieldOIs.add(PrimitiveObjectInspectorFactory.javaStringObjectInspector);

        fieldNames.add("endtime");

        fieldOIs.add(PrimitiveObjectInspectorFactory.javaStringObjectInspector);

        fieldNames.add("hour");

        fieldOIs.add(PrimitiveObjectInspectorFactory.javaStringObjectInspector);

        fieldNames.add("seconds");

        fieldOIs.add(PrimitiveObjectInspectorFactory.javaStringObjectInspector);

        return ObjectInspectorFactory.getStandardStructObjectInspector(fieldNames, fieldOIs);

    }

    /**

     * process the column

     * @param objects

     * @throws HiveException

     */

    public void process(Object[] objects) throws HiveException {

        String [] input = objects[0].toString().split(",");

        // 2018-06-06 10:25:35

        String beginTime = input[0];

        String endTime = input[1];

        String[] result = new String[4];

        result[0] = beginTime;

        result[1] = endTime;

        // begintime

        int bhour = Integer.parseInt(beginTime.substring(11, 13));

        int bmin = Integer.parseInt(beginTime.substring(14, 16));

        int bsecond = Integer.parseInt(beginTime.substring(17, 19));

        // endtime

        int ehour = Integer.parseInt(endTime.substring(11, 13));

        int emin = Integer.parseInt(endTime.substring(14, 16));

        int esecond = Integer.parseInt(endTime.substring(17, 19));

        // 1.if begin hour equal end hour, second is : (emin - bmin) * 60 + (esecond - bsecond)

        if (bhour == ehour) {

            result[2] = String.valueOf(bhour);

            result[3] = String.valueOf((emin - bmin) * 60 + (esecond - bsecond));

            forward(result);

            return;

        }

        boolean flag = true;

        //TODO 待优化，先输出第一个循环的时长，再循环后面的就不用判断

        while (bhour != ehour) {

            result[2] = String.valueOf(bhour);

            if(flag){

                flag = false;

            // 2. if begintime hour != endtime, the first hour, second is : 3600 - bmin * 60 - bsecond

                result[3] = String.valueOf(3600 - bmin * 60 - bsecond);

            }else {

                // 3. next hour is 3600

                result[3] = String.valueOf();

            }

            bhour += 1;

            // 输出到hive

            forward(result);

        }

        result[2] = String.valueOf(bhour);

        // 4. the end hour is : emin  * 60 + esecond

        result[3] = String.valueOf( emin  * 60 + esecond);

        forward(result);

    }

    public void close() throws HiveException {

    }

}

udtf 函数介绍参加上篇

使用方式见上篇

Hadoop3集群搭建之——hive添加自定义函数UDTF

样例：

hive> select split_hour( concat(begintime,',',endtime)) from viewlog where log_date= limit ;

OK

begintime    endtime    hour    seconds

-- ::    -- ::

-- ::    -- ::

-- ::    -- ::

-- ::    -- ::

-- ::    -- ::

-- ::    -- ::

-- ::    -- ::

-- ::    -- ::

-- ::    -- ::

2018-04-01 12:15:07    2018-04-01 12:15:11    12    4

2018-04-01 06:53:40    2018-04-01 07:02:09    6    380

2018-04-01 06:53:40    2018-04-01 07:02:09    7    129

Time taken: 2.238 seconds, Fetched:  row(s)

搞定

Hadoop3集群搭建之——hive添加自定义函数UDTF （一行输入，多行输出）的更多相关文章

Hadoop3集群搭建之——hive添加自定义函数UDTF
上篇: Hadoop3集群搭建之——虚拟机安装 Hadoop3集群搭建之——安装hadoop,配置环境 Hadoop3集群搭建之——配置ntp服务 Hadoop3集群搭建之——hive安装 Hadoo ...
Hadoop3集群搭建之——hive添加自定义函数UDF
上篇: Hadoop3集群搭建之——虚拟机安装 Hadoop3集群搭建之——安装hadoop,配置环境 Hadoop3集群搭建之——配置ntp服务 Hadoop3集群搭建之——hive安装 Hadoo ...
Hadoop3集群搭建之——hive安装
Hadoop3集群搭建之——虚拟机安装 Hadoop3集群搭建之——安装hadoop,配置环境 Hadoop3集群搭建之——配置ntp服务 Hadoop3集群搭建之——hbase安装及简单操作现在到 ...
Hadoop3集群搭建之——hbase安装及简单操作
折腾了这么久,hbase终于装好了 ------------------------- 上篇: Hadoop3集群搭建之——虚拟机安装 Hadoop3集群搭建之——安装hadoop,配置环境 Hado ...
Hadoop3集群搭建之——配置ntp服务
上篇: Hadoop3集群搭建之——虚拟机安装 Hadoop3集群搭建之——安装hadoop,配置环境下篇: Hadoop3集群搭建之——hive安装 Hadoop3集群搭建之——hbase安装及简 ...
Hadoop3集群搭建之——安装hadoop，配置环境
接上篇:Hadoop3集群搭建之——虚拟机安装下篇:Hadoop3集群搭建之——配置ntp服务 Hadoop3集群搭建之——hive安装 Hadoop3集群搭建之——hbase安装及简单操作上篇已 ...
Hadoop3集群搭建之——虚拟机安装
现在做的项目是个大数据报表系统,刚开始的时候,负责做Java方面的接口(项目前端为独立的Java web 系统,后端也是Java web的系统,前后端系统通过接口传输数据),后来领导觉得大家需要多元化 ...
集群搭建之Hive配置要点
注意点: 在启动Hive 的时候要先启动Hadoop和MySQL服务. Mysql 和 Hive 搭建在 yan00机器上. part1:MySQL配置相关安装和配置相关命令: Yum instal ...
Week08_day01 (Hive 自定义函数 UDF 一个输入，一个输出（最常用）)
当我们进入企业就会发现,很多时候,企业的数据都是加密的,我们拿到的数据没办法使用Hive自带的函数去解决,我们就需要自己去定义函数去查看,哈哈,然而企业一般不会将解密的代码给你的,只需要会用,但是我们 ...

随机推荐

Docker基础入门
Docker 是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的 Linux 机器上,也可以实现虚拟化.容器是完全使用沙箱机制,相互之间不会有任何 ...
Jasperreport5.6.9-----1
Jasperreport5.6.0生成PDF 最近项目中需要生成报表,先是看了下itext,觉得还可以,但是如果数据字段多的话,不太灵活.所以后来看了下ireport,觉得还可以,下面简单说一下它们: ...
常用的key和oid
1.FortiGate Template-Network-Office-Fortigate-Session Count:key,fgSysSesCount oid,.1.3.6.1.4.1.123 ...
git删除提交历史
精准入口==>官方文档 Q:我们在提交代码时,把密码或者敏感信息也提交了,怎么办? A:“在本地删除密码或敏感信息后,再push到远程仓库” Q:"但这样删除后,在仓库的commit历 ...
<context:annotation-config/>，<mvc:annotation-driven/>和<context:component-scan>之间的关系
首先看一下三个注解各自定义: ① <context:annotation-config/> 1.如果你想使用@Autowired注解,那么就必须事先在 spring 容器中声明 Autow ...
YII2中添加自定义模块
有些时候系统功能过于复杂,这时我们需要通过模块把一些功能区分开来,便于管理与维护. 我用的是Yii2的基本应用程序模板,程序其实已经给我们提供了一个模块,就是app本身.YII2中是可以无限嵌套模块的 ...
我的开发小tip
开发原则:1.谁开发,谁负责到底.自己的开发的模块自己维护,不要让别人替你维护,否则很麻烦:2.合理分配时间3.谨慎的处理遇到的bug和问题,不是自己开发的不要轻举妄动,提交到待办中即可4.万勿过度设 ...
.net中几个经常用到的字符串的截取
string str="123abc456";int i=3;1 取字符串的前i个字符 str=str.Substring(0,i); // or str=str.Remov ...
python 面向对象编程之反射
1 什么是反射反射的概念是由Smith在1982年首次提出的,主要是指程序可以访问.检测和修改它本身状态或行为的一种能力(自省).这一概念的提出很快引发了计算机科学领域关于应用反射性的研究.它首先被 ...
ftp上传文件异常
ftp一个服务器如果是22端口 ssh-2.0-openssh_4.3 ,是什么意思? ftp服务用的是20.21端口,客户端添加ftp信息的时候输入的是21端口 ssh服务用的是22端口,应用于远 ...

Hadoop3集群搭建之——hive添加自定义函数UDTF （一行输入，多行输出）

Hadoop3集群搭建之——hive添加自定义函数UDTF （一行输入，多行输出）的更多相关文章

随机推荐

热门专题