Presto 函数开发
0. 写在前面
Presto Functions 并不能像 Hive UDF 一样动态加载,需要根据 Function 的类型,实现 Presto 内部定义的不同接口,在 Presto 服务启动时进行注册,然后才能在 SQL 执行时进行调用。
1. 函数定义
Presto 内部将 Functions 分为以下三大类:
- Scalar Function,即标量函数。将传递给它的一个或者多个参数值,进行计算后,返回一个确定类型的标量值。
- Aggregation Function,即聚合函数。计算从列中取得的值,返回一个单一的值。
- Window Function,即开窗函数。计算从分组列中取得的值,并返回多个值。
对于不同类型的函数,需要遵循不同的规则进行实现。
1.1 标量函数
Presto 使用注解框架来实现标量函数,标量函数分别需要定义函数名称、输入参数类型和返回结果类型。下面介绍几种开发标量函数常用的注解:
@ScalarFunction
:用于声明标量函数的名称和别名@Description
:用于生成函数的功能描述@SqlType
:用于声明函数的返回类型和参数类型@TypeParameter
:用于声明类型变量,它所声明的类型变量可以用于函数的返回类型和参数类型,框架在运行时会自动将变量与具体的类型进行绑定@SqlNullable
:用于表示函数参数或返回结果可能为NULL
。如果方法的参数不使用此注解,当函数参数包含NULL
时,则该函数不会被调用,框架自动返回结果NULL
。当 Java 代码中用于实现函数的方法的返回值为包装类型时,必须要在实现方法上加上该注解,且该注解无法用于 Java 基础类型
下面用一个简单的is_null
函数来具体说明如何使用以上注解进行标量函数开发。
public class ExampleIsNullFunction
{
@ScalarFunction(value = "is_null", alias = "isnull")
@Description("Returns TRUE if the argument is NULL")
@SqlType(StandardTypes.BOOLEAN)
public static boolean isNull(@SqlNullable @SqlType(StandardTypes.VARCHAR) Slice string)
{
return (string == null);
}
}
以上代码实现的is_null
函数功能为:判断传入的VARCHAR
类型参数是否为NULL
,如果为NULL
则返回true
,否则返回false
。其中:
@ScalarFunction(value = "is_null", alias = "isnull")
声明了函数名为is_null
,函数别名为isnull
,即在 SQL 中使用is_null
和isnull
都可以调用该函数@Description("Returns TRUE if the argument is NULL")
声明了函数描述,使用show functions
命令可以看到函数的描述@SqlType(StandardTypes.BOOLEAN)
声明了函数的返回类型为BOOLEAN
- 因为当函数参数为
NULL
时,我们不能直接返回NULL
,而是要进行判断,所以要加上@SqlNullable
避免框架自动返回NULL
@SqlType(StandardTypes.VARCHAR)
声明了函数的参数类型为VARCHAR
注意到,这里使用了 Java 类型Slice
来接收 SQL 中VARCHAR
类型的值。框架会自动将 SQL 中的数据类型与“原生容器类型”(Native container type)进行绑定,目前“原生容器类型”只包括:boolean
、long
、double
、Slice
和Block
。VARCHAR
对应的原生容器类型是Slice
而不是String
,Slice
的本质是对byte[]
进行了封装,为的是更加高效、自由地对内存进行操作。Block
可以简单的理解为对应 SQL 中的数组类型。具体的对应关系和绑定过程涉及 Presto 的类型系统和函数调用过程,不是本文讲解的重点,故在此不作展开。
进一步地,我们想对 is_null
函数进行升级,使它能够处理任意类型的参数,这时@TypeParameter
注解就派上用场了,函数的实现可以改写为:
@ScalarFunction(value = "is_null", alias = "isnull")
@Description("Returns TRUE if the argument is NULL")
public class ExampleIsNullFunction
{
private IsNullFunctions()
{
}
@TypeParameter("T")
@SqlType(StandardTypes.BOOLEAN)
public static boolean isNullSlice(@SqlNullable @SqlType("T") Slice value)
{
return (value == null);
}
@TypeParameter("T")
@SqlType(StandardTypes.BOOLEAN)
public static boolean isNullLong(@SqlNullable @SqlType("T") Long value)
{
return (value == null);
}
@TypeParameter("T")
@SqlType(StandardTypes.BOOLEAN)
public static boolean isNullDouble(@SqlNullable @SqlType("T") Double value)
{
return (value == null);
}
@TypeParameter("T")
@SqlType(StandardTypes.BOOLEAN)
public static boolean isNullBoolean(@SqlNullable @SqlType("T") Boolean value)
{
return (value == null);
}
@TypeParameter("T")
@SqlType(StandardTypes.BOOLEAN)
public static boolean isNullBlock(@SqlNullable @SqlType("T") Block value)
{
return (value == null);
}
}
可以看到,@TypeParameter
的使用有点类似 Java 中泛型的用法,类型变量T
在声明完之后就可以在@SqlType
注解中使用。在实际的调用过程中,框架会将T
与实际 SQL 类型进行绑定,然后再去调用以对应的原生容器类型为参数的实际方法。
1.2 聚合函数
聚合的过程一般涉及多行,有一个累积计算的过程,又由于 Presto 是一个分布式的计算引擎,数据分布在多个节点,所以需要用状态对象来维护和记录中间计算结果。
引入状态之后,Presto 将聚合的过程抽象为三个步骤:
input(state, value)
combine(state1, state2)
output(state, out)
首先,input
阶段分别在不同的 worker 中进行,将行值进行累积计算到state
中;combine
阶段将上一步得到的state
进行两两结合;经过前两步,最终会得到一个state
,在output
阶段对最终的state
进行处理输出。
在实现方面,聚合函数的开发使用了和标量函数类似的注解框架,但是由于状态概念的引入,需要定义一个继承于AccumulatorState
接口的状态接口,对于简单的聚合,该接口只需要新增聚合所需的getter
和setter
,框架会自动生成相关的实现和序列化代码;如果聚合过程中需要记录复杂类型(LIST
、MAP
或自定义的类)的状态,则需要额外实现AccumulatorStateFactory
接口和AccumulatorStateSerializer
接口,并在状态接口上使用@AccumulatorStateMetadata
注解,在注解中指定stateFactoryClass
和stateSerializerClass
。
下面以实现求DOUBLE
类型的列均值的聚合函数avg_double
为例来说明如何进行简单聚合函数的开发。
avg_double
的聚合状态只需要记录累积和与加数个数,所以状态接口的定义如下:
public interface LongAndDoubleState
extends AccumulatorState
{
long getLong();
void setLong(long value);
double getDouble();
void setDouble(double value);
}
使用定义好的状态接口进行聚合函数实现:
@AggregationFunction("avg_double")
public class AverageAggregation
{
@InputFunction
public static void input(LongAndDoubleState state, @SqlType(StandardTypes.DOUBLE) double value)
{
state.setLong(state.getLong() + 1);
state.setDouble(state.getDouble() + value);
}
@CombineFunction
public static void combine(LongAndDoubleState state, LongAndDoubleState otherState)
{
state.setLong(state.getLong() + otherState.getLong());
state.setDouble(state.getDouble() + otherState.getDouble());
}
@OutputFunction(StandardTypes.DOUBLE)
public static void output(LongAndDoubleState state, BlockBuilder out)
{
long count = state.getLong();
if (count == 0) {
out.appendNull();
}
else {
double value = state.getDouble();
DOUBLE.writeDouble(out, value / count);
}
}
}
可以看到聚合函数的实现使用了以下注解:
@AggregationFunction
声明了聚合函数的名称,也可以指定函数的别名@InputFunction
、@CombineFunction
和@OutputFunction
分别用来标记聚合的三个步骤,其中@OutputFunction
注解需要声明聚合函数返回结果的数据类型BlockBuilder
类为结果输出类,聚合计算出的最终结果值将通过BlockBuilder
进行输出
1.3 窗口函数
窗口函数在查询结果的行上进行计算,执行顺序在HAVING
子句之后,ORDER BY
子句之前。在 Presto SQL 中,窗口函数的语法形式如下:
windowFunction(arg1,....argn) OVER([PARTITION BY<...>] [ORDER BY<...>] [RANGE|ROWS BETWEEN AND])
由此可见,窗口函数语法由关键字OVER
触发,且包含三个子句:
PARTITION BY
: 指定输入行分区的规则,类似于聚合函数的GROUP BY
子句,不同分区里的计算互不干扰(窗口函数的计算是并发进行的,并发数和partition
数量一致),缺省时将所有数据行视为一个分区ORDER BY
: 决定了窗口函数处理输入行的顺序RANGE|ROWS BETWEEN AND
: 指定窗口边界,不常用,缺省时的窗口为当前行所在的分区第一行到当前行
窗口函数的开发需要实现WindowFunction
接口,WindowFunction
接口中声明了两个方法:
void reset(WindowIndex windowIndex)
: 处理新分区时,都会调用该方法进行初始化,WindowIndex
包含了已排序的分区的所有行void processRow(BlockBuilder output, int peerGroupStart, int peerGroupEnd, int frameStart, int frameEnd)
: 窗口函数的实现方法,BlockBuilder
为结果输出类,计算出来的值将通过BlockBuilder
进行输出;peerGroupStart
和peerGroupEnd
为当前处理的行所在的分区的开始和结束的位置;frameStart
和frameEnd
为当前处理行所在的窗口的开始和结束位置。
实现一个返回窗口中第一个值的窗口函数first_value(x)
的代码如下:
@WindowFunctionSignature(name = "first_value", typeVariable = "T", returnType = "T", argumentTypes = "T")
public class FirstValueFunction
extends WindowFunction
{
private final int argumentChannel;
private WindowIndex windowIndex;
public FirstValueFunction(List<Integer> argumentChannels)
{
this.argumentChannel = getOnlyElement(argumentChannels);
}
@Override
public void reset(WindowIndex windowIndex)
{
this.windowIndex = windowIndex;
}
@Override
public void processRow(BlockBuilder output, int peerGroupStart, int peerGroupEnd, int frameStart, int frameEnd)
{
if (frameStart < 0) {
output.appendNull();
return;
}
//Outputs a value from the index
windowIndex.appendTo(argumentChannel, frameStart, output);
}
}
其中:
@WindowFunctionSignature
注解声明了窗口函数的名称,为了处理任意数据类型的字段,这里还声明了类型变量T
,并将返回类型和参数类型都指定为T
- 构造函数中的
argumentChannels
为参数字段所在列的索引值 processRow
方法中,每次只需要通过列索引argumentChannel
和当前行所在的窗口起始索引frameStart
,就能确定窗口中的第一个值
2. 函数注册
Presto 函数由MetadataManager
中的FunctionRegistry
进行管理,开发的函数要生效必须要先注册到FunctionRegistry
中。函数注册是在 Presto 服务启动过程中进行的,有以下两种方式进行函数注册。
2.1 内置函数注册
内置函数指的是 Presto 自带的函数库中的函数,函数的实现位于presto-main
模块中,在FunctionRegistry
初始化时进行注册。具体的注册过程使用了建造者模式,不同类型的函数注册只需要调用FunctionListBuilder
对象对应的方法进行注册,关键代码如下:
FunctionListBuilder builder = new FunctionListBuilder()
.window(RowNumberFunction.class)
.aggregate(ApproximateCountDistinctAggregation.class)
.scalar(RepeatFunction.class)
.function(MAP_HASH_CODE)
......
2.2 插件函数注册
内置函数满足不了使用需求时,就需要自行开发函数来拓展函数库。开发者自行编写的拓展函数一般通过插件的方式进行注册。PluginManager
在安装插件时会调用插件的getFunctions()
方法,将获取到的函数集合通过MetadataManager
的addFunctions
方法进行注册:
public void installPlugin(Plugin plugin)
{
......
for (Class<?> functionClass : plugin.getFunctions()) {
log.info("Registering functions from %s", functionClass.getName());
metadata.addFunctions(extractFunctions(functionClass));
}
......
}
所以用做拓展函数库的插件,需要实现getFunctions()
方法,来返回拓展的函数集合,例:
public class ExampleFunctionsPlugin
implements Plugin
{
@Override
public Set<Class<?>> getFunctions()
{
return ImmutableSet.<Class<?>>builder()
.add(ExampleNullFunction.class)
.add(IsNullFunction.class)
.add(IsEqualOrNullFunction.class)
.add(ExampleStringFunction.class)
.add(ExampleAverageFunction.class)
.build();
}
}
3. 多说几句
以上介绍的 Presto 函数开发方式可以满足日常大部分函数开发需求, Presto 函数的注册机制,新增和修改函数后,必须要重启服务才能生效,所以目前还不支持真正的用户自定义函数。
其他较为复杂的函数实现,比如变长参数函数的实现涉及调用过程中的函数签名匹配和类型参数绑定,需要用到codeGen
进行实现,具体原理由于篇幅有限,在文中没有进行展开讲解,感兴趣的读者可以在评论区留言。
Presto 函数开发的更多相关文章
- myeclipse调用loadrunner函数开发测试脚本
myeclipse调用loadrunner函数开发测试脚本 一.使用myeclipse开发性能测试脚本 1.使用Eclipse新建一个Java工程,将目录%LoadRunner_Home%\class ...
- Jmeter(三十二)Jmeter Question 之 “自定义函数开发”
“技术是业务的支撑”,已经不是第一次听到这句话,因为有各种各样的需求,因此衍生了许多各种各样的技术.共勉! 前面有提到提到过Jmeter的安装目录结构,也提到Jmeter的常用函数功能,有部分工作使用 ...
- Excel自定义函数开发手记
目录 本文使用的版本:Excel 2013 1.打开脚本编辑框 2.插入模块,编写代码 3.测试所写代码是否正确 4.给Excel单元插入自定义函数 5.给函数增加自定义说明 6.设置该自定义函数在E ...
- Hive的UDF(用户自定义函数)开发
当 Hive 提供的内置函数无法满足你的业务处理需要时,此时就可以考虑使用用户自定义函数(UDF:user-defined function). 测试各种内置函数的快捷方法: 创建一个 dual 表 ...
- 关于db2中listagg函数开发中的体验
一.首先解释一下可能会查询的基础问题: 1.1db2 “with ur”是什么意思: 在DB2中,共有四种隔离级:RS,RR,CS,UR.以下对四种隔离级进行一些描述,同时附上个人做试验的结果.隔离级 ...
- presto 函数中使用子查询
我们已知 在sql中子查询可以配合 in 或者 exists 来使用,但是如何把子查询的结果传给函数呢? 场景: 我们有一个 省份表 数据如下: id province 1 广东 2 ...
- Hive 内建操作符与函数开发——深入浅出学Hive
第一部分:关系运算 Hive支持的关系运算符 •常见的关系运算符 •等值比较: = •不等值比较: <> •小于比较: < •小于等于比较: <= •大于比较: > •大 ...
- mysql presto 函数收集
格式化日期 presto: select date_format(CURRENT_DATE - INTERVAL '1' month, '%Y-%m') mysql:date_format(DATE ...
- 用js立即执行函数开发基于bootstrap-multiselect的联动参数菜单
代码调用方式如下: data=[{F0:总分类cd,F1:总分类name,F2:大分类cd,F3:大分类name,F4:中分类cd,F5:中分类name,F6:小分类cd,F7:小分类name},.. ...
随机推荐
- skywalking学习ppt
和传统应用监控的区别,Dapper论文 监控图
- android handle详解
我们来看一个简单的代码: package com.mly.panhouye.handlerdemo; import android.content.Intent; import android.os. ...
- 入门大数据---Flume整合Kafka
一.背景 先说一下,为什么要使用 Flume + Kafka? 以实时流处理项目为例,由于采集的数据量可能存在峰值和峰谷,假设是一个电商项目,那么峰值通常出现在秒杀时,这时如果直接将 Flume 聚合 ...
- 且谈 Apache Spark 的 API 三剑客:RDD、DataFrame 和 Dataset
作者:Jules S. Damji 译者:足下 本文翻译自 A Tale of Three Apache Spark APIs: RDDs, DataFrames, and Datasets ,翻译已 ...
- python文件处理-将图像根据坐标画矩形标记
内容涉及:文件遍历,选取csv后缀文件,用cv操作图片 import csv import os import sys import numpy as np import copy import sh ...
- 深入理解JVM(③)虚拟机的类加载器(双亲委派模型)
前言 先解释一下什么是类加载器,通过一个类的全限定名来获取描述该类的二进制字节流,在虚拟机中实现这个动作的代码被称为"类加载器(Class Loader)". 类与类加载器 类加载 ...
- Glusterfs读写性能测试与分析
一.测试目的: 1.测试分布卷(Distributed).分布式复制卷(Distributed-Replicate).条带卷(Strip)和分布式条带复制卷(Distributed-Strip-Rep ...
- 打造属于你的聊天室(WebSocket)
SpringBoot 是为了简化 Spring 应用的创建.运行.调试.部署等一系列问题而诞生的产物,自动装配的特性让我们可以更好的关注业务本身而不是外部的XML配置,我们只需遵循规范,引入相关的依赖 ...
- 开放api接口参数 app_id, app_key, app_secret 的理解
看到知乎上一个回答很形象: app_id, app_key, app_secret:我的身份证,银行卡号,银行卡密码 (完)
- Javascript 中 数组遍历 forin和forof 的区别
定义一个数组 let array = [1, 2, 3, 4]; for (let a in array){ console.log("遍历a的值 "+a+"”,数组中的 ...