0. 写在前面

Presto Functions 并不能像 Hive UDF 一样动态加载，需要根据 Function 的类型，实现 Presto 内部定义的不同接口，在 Presto 服务启动时进行注册，然后才能在 SQL 执行时进行调用。

1. 函数定义

Presto 内部将 Functions 分为以下三大类：

Scalar Function，即标量函数。将传递给它的一个或者多个参数值，进行计算后，返回一个确定类型的标量值。
Aggregation Function，即聚合函数。计算从列中取得的值，返回一个单一的值。
Window Function，即开窗函数。计算从分组列中取得的值，并返回多个值。

对于不同类型的函数，需要遵循不同的规则进行实现。

1.1 标量函数

Presto 使用注解框架来实现标量函数，标量函数分别需要定义函数名称、输入参数类型和返回结果类型。下面介绍几种开发标量函数常用的注解：

@ScalarFunction：用于声明标量函数的名称和别名
@Description：用于生成函数的功能描述
@SqlType：用于声明函数的返回类型和参数类型
@TypeParameter：用于声明类型变量，它所声明的类型变量可以用于函数的返回类型和参数类型，框架在运行时会自动将变量与具体的类型进行绑定
@SqlNullable：用于表示函数参数或返回结果可能为NULL。如果方法的参数不使用此注解，当函数参数包含NULL时，则该函数不会被调用，框架自动返回结果NULL。当 Java 代码中用于实现函数的方法的返回值为包装类型时，必须要在实现方法上加上该注解，且该注解无法用于 Java 基础类型

下面用一个简单的is_null函数来具体说明如何使用以上注解进行标量函数开发。

public class ExampleIsNullFunction

{

    @ScalarFunction(value = "is_null", alias = "isnull")

    @Description("Returns TRUE if the argument is NULL")

    @SqlType(StandardTypes.BOOLEAN)

    public static boolean isNull(@SqlNullable @SqlType(StandardTypes.VARCHAR) Slice string)

    {

        return (string == null);

    }

}

以上代码实现的is_null函数功能为：判断传入的VARCHAR类型参数是否为NULL，如果为NULL则返回true，否则返回false。其中：

@ScalarFunction(value = "is_null", alias = "isnull")声明了函数名为is_null，函数别名为isnull，即在 SQL 中使用is_null和isnull都可以调用该函数
@Description("Returns TRUE if the argument is NULL")声明了函数描述，使用show functions命令可以看到函数的描述
@SqlType(StandardTypes.BOOLEAN)声明了函数的返回类型为BOOLEAN
因为当函数参数为NULL时，我们不能直接返回NULL，而是要进行判断，所以要加上@SqlNullable避免框架自动返回NULL
@SqlType(StandardTypes.VARCHAR)声明了函数的参数类型为VARCHAR

注意到，这里使用了 Java 类型Slice来接收 SQL 中VARCHAR类型的值。框架会自动将 SQL 中的数据类型与“原生容器类型”（Native container type）进行绑定，目前“原生容器类型”只包括：boolean、long、double、Slice和Block。VARCHAR对应的原生容器类型是Slice而不是String,Slice的本质是对byte[]进行了封装，为的是更加高效、自由地对内存进行操作。Block可以简单的理解为对应 SQL 中的数组类型。具体的对应关系和绑定过程涉及 Presto 的类型系统和函数调用过程，不是本文讲解的重点，故在此不作展开。

进一步地，我们想对 is_null函数进行升级，使它能够处理任意类型的参数，这时@TypeParameter注解就派上用场了，函数的实现可以改写为：

@ScalarFunction(value = "is_null", alias = "isnull")

@Description("Returns TRUE if the argument is NULL")

public class ExampleIsNullFunction

{

    private IsNullFunctions()

    {

    }

    @TypeParameter("T")

    @SqlType(StandardTypes.BOOLEAN)

    public static boolean isNullSlice(@SqlNullable @SqlType("T") Slice value)

    {

        return (value == null);

    }

    @TypeParameter("T")

    @SqlType(StandardTypes.BOOLEAN)

    public static boolean isNullLong(@SqlNullable @SqlType("T") Long value)

    {

        return (value == null);

    }

    @TypeParameter("T")

    @SqlType(StandardTypes.BOOLEAN)

    public static boolean isNullDouble(@SqlNullable @SqlType("T") Double value)

    {

        return (value == null);

    }

    @TypeParameter("T")

    @SqlType(StandardTypes.BOOLEAN)

    public static boolean isNullBoolean(@SqlNullable @SqlType("T") Boolean value)

    {

        return (value == null);

    }

    @TypeParameter("T")

    @SqlType(StandardTypes.BOOLEAN)

    public static boolean isNullBlock(@SqlNullable @SqlType("T") Block value)

    {

        return (value == null);

    }

}

可以看到，@TypeParameter的使用有点类似 Java 中泛型的用法，类型变量T在声明完之后就可以在@SqlType注解中使用。在实际的调用过程中，框架会将T与实际 SQL 类型进行绑定，然后再去调用以对应的原生容器类型为参数的实际方法。

1.2 聚合函数

聚合的过程一般涉及多行，有一个累积计算的过程，又由于 Presto 是一个分布式的计算引擎，数据分布在多个节点，所以需要用状态对象来维护和记录中间计算结果。

引入状态之后，Presto 将聚合的过程抽象为三个步骤：

input(state, value)
combine(state1, state2)
output(state, out)

首先，input 阶段分别在不同的 worker 中进行，将行值进行累积计算到state中；combine阶段将上一步得到的state进行两两结合；经过前两步，最终会得到一个state，在output阶段对最终的state进行处理输出。

在实现方面，聚合函数的开发使用了和标量函数类似的注解框架，但是由于状态概念的引入，需要定义一个继承于AccumulatorState接口的状态接口，对于简单的聚合，该接口只需要新增聚合所需的getter和setter，框架会自动生成相关的实现和序列化代码；如果聚合过程中需要记录复杂类型（LIST、MAP或自定义的类）的状态，则需要额外实现AccumulatorStateFactory接口和AccumulatorStateSerializer接口，并在状态接口上使用@AccumulatorStateMetadata注解，在注解中指定stateFactoryClass和stateSerializerClass。

下面以实现求DOUBLE类型的列均值的聚合函数avg_double为例来说明如何进行简单聚合函数的开发。

avg_double的聚合状态只需要记录累积和与加数个数，所以状态接口的定义如下：

public interface LongAndDoubleState

        extends AccumulatorState

{

    long getLong();

    void setLong(long value);

    double getDouble();

    void setDouble(double value);

}

使用定义好的状态接口进行聚合函数实现：

@AggregationFunction("avg_double")

public class AverageAggregation

{

    @InputFunction

    public static void input(LongAndDoubleState state, @SqlType(StandardTypes.DOUBLE) double value)

    {

        state.setLong(state.getLong() + 1);

        state.setDouble(state.getDouble() + value);

    }

    @CombineFunction

    public static void combine(LongAndDoubleState state, LongAndDoubleState otherState)

    {

        state.setLong(state.getLong() + otherState.getLong());

        state.setDouble(state.getDouble() + otherState.getDouble());

    }

    @OutputFunction(StandardTypes.DOUBLE)

    public static void output(LongAndDoubleState state, BlockBuilder out)

    {

        long count = state.getLong();

        if (count == 0) {

            out.appendNull();

        }

        else {

            double value = state.getDouble();

            DOUBLE.writeDouble(out, value / count);

        }

    }

}

可以看到聚合函数的实现使用了以下注解：

@AggregationFunction声明了聚合函数的名称，也可以指定函数的别名
@InputFunction、@CombineFunction和@OutputFunction分别用来标记聚合的三个步骤，其中@OutputFunction注解需要声明聚合函数返回结果的数据类型
BlockBuilder类为结果输出类，聚合计算出的最终结果值将通过BlockBuilder进行输出

1.3 窗口函数

窗口函数在查询结果的行上进行计算，执行顺序在HAVING子句之后，ORDER BY子句之前。在 Presto SQL 中，窗口函数的语法形式如下：

windowFunction(arg1,....argn) OVER([PARTITION BY<...>] [ORDER BY<...>] [RANGE|ROWS BETWEEN AND])

由此可见，窗口函数语法由关键字OVER触发，且包含三个子句：

PARTITION BY: 指定输入行分区的规则，类似于聚合函数的GROUP BY子句，不同分区里的计算互不干扰(窗口函数的计算是并发进行的，并发数和partition数量一致)，缺省时将所有数据行视为一个分区
ORDER BY: 决定了窗口函数处理输入行的顺序
RANGE|ROWS BETWEEN AND: 指定窗口边界，不常用，缺省时的窗口为当前行所在的分区第一行到当前行

窗口函数的开发需要实现WindowFunction接口，WindowFunction接口中声明了两个方法：

void reset(WindowIndex windowIndex): 处理新分区时，都会调用该方法进行初始化，WindowIndex包含了已排序的分区的所有行
void processRow(BlockBuilder output, int peerGroupStart, int peerGroupEnd, int frameStart, int frameEnd): 窗口函数的实现方法，BlockBuilder为结果输出类，计算出来的值将通过BlockBuilder进行输出；peerGroupStart和peerGroupEnd为当前处理的行所在的分区的开始和结束的位置；frameStart和frameEnd为当前处理行所在的窗口的开始和结束位置。

实现一个返回窗口中第一个值的窗口函数first_value(x)的代码如下：

@WindowFunctionSignature(name = "first_value", typeVariable = "T", returnType = "T", argumentTypes = "T")

public class FirstValueFunction

        extends WindowFunction

{

    private final int argumentChannel;

    private WindowIndex windowIndex;

    public FirstValueFunction(List<Integer> argumentChannels)

    {

        this.argumentChannel = getOnlyElement(argumentChannels);

    }

    @Override

    public void reset(WindowIndex windowIndex)

    {

        this.windowIndex = windowIndex;

    }

    @Override

    public void processRow(BlockBuilder output, int peerGroupStart, int peerGroupEnd, int frameStart, int frameEnd)

    {

        if (frameStart < 0) {

            output.appendNull();

            return;

        }

        //Outputs a value from the index

        windowIndex.appendTo(argumentChannel, frameStart, output);

    }

}

其中：

@WindowFunctionSignature注解声明了窗口函数的名称，为了处理任意数据类型的字段，这里还声明了类型变量T，并将返回类型和参数类型都指定为T
构造函数中的argumentChannels为参数字段所在列的索引值
processRow方法中，每次只需要通过列索引argumentChannel和当前行所在的窗口起始索引frameStart，就能确定窗口中的第一个值

2. 函数注册

Presto 函数由MetadataManager中的FunctionRegistry进行管理，开发的函数要生效必须要先注册到FunctionRegistry中。函数注册是在 Presto 服务启动过程中进行的，有以下两种方式进行函数注册。

2.1 内置函数注册

内置函数指的是 Presto 自带的函数库中的函数，函数的实现位于presto-main模块中，在FunctionRegistry初始化时进行注册。具体的注册过程使用了建造者模式，不同类型的函数注册只需要调用FunctionListBuilder对象对应的方法进行注册，关键代码如下：

FunctionListBuilder builder = new FunctionListBuilder()

                .window(RowNumberFunction.class)

                .aggregate(ApproximateCountDistinctAggregation.class)

                .scalar(RepeatFunction.class)

                .function(MAP_HASH_CODE)

                ......

2.2 插件函数注册

内置函数满足不了使用需求时，就需要自行开发函数来拓展函数库。开发者自行编写的拓展函数一般通过插件的方式进行注册。PluginManager在安装插件时会调用插件的getFunctions()方法，将获取到的函数集合通过MetadataManager的addFunctions方法进行注册：

public void installPlugin(Plugin plugin)

    {

        ......

       for (Class<?> functionClass : plugin.getFunctions()) {

            log.info("Registering functions from %s", functionClass.getName());

            metadata.addFunctions(extractFunctions(functionClass));

        }

        ......

    }

所以用做拓展函数库的插件，需要实现getFunctions()方法，来返回拓展的函数集合，例：

public class ExampleFunctionsPlugin

        implements Plugin

{

    @Override

    public Set<Class<?>> getFunctions()

    {

        return ImmutableSet.<Class<?>>builder()

                .add(ExampleNullFunction.class)

                .add(IsNullFunction.class)

                .add(IsEqualOrNullFunction.class)

                .add(ExampleStringFunction.class)

                .add(ExampleAverageFunction.class)

                .build();

    }

}

3. 多说几句

以上介绍的 Presto 函数开发方式可以满足日常大部分函数开发需求， Presto 函数的注册机制，新增和修改函数后，必须要重启服务才能生效，所以目前还不支持真正的用户自定义函数。

其他较为复杂的函数实现，比如变长参数函数的实现涉及调用过程中的函数签名匹配和类型参数绑定，需要用到codeGen进行实现，具体原理由于篇幅有限，在文中没有进行展开讲解，感兴趣的读者可以在评论区留言。

Presto 函数开发的更多相关文章

myeclipse调用loadrunner函数开发测试脚本
myeclipse调用loadrunner函数开发测试脚本一.使用myeclipse开发性能测试脚本 1.使用Eclipse新建一个Java工程,将目录%LoadRunner_Home%\class ...
Jmeter（三十二）Jmeter Question 之 “自定义函数开发”
“技术是业务的支撑”,已经不是第一次听到这句话,因为有各种各样的需求,因此衍生了许多各种各样的技术.共勉! 前面有提到提到过Jmeter的安装目录结构,也提到Jmeter的常用函数功能,有部分工作使用 ...
Excel自定义函数开发手记
目录本文使用的版本:Excel 2013 1.打开脚本编辑框 2.插入模块,编写代码 3.测试所写代码是否正确 4.给Excel单元插入自定义函数 5.给函数增加自定义说明 6.设置该自定义函数在E ...
Hive的UDF(用户自定义函数)开发
当 Hive 提供的内置函数无法满足你的业务处理需要时,此时就可以考虑使用用户自定义函数(UDF:user-defined function). 测试各种内置函数的快捷方法: 创建一个 dual 表 ...
关于db2中listagg函数开发中的体验
一.首先解释一下可能会查询的基础问题: 1.1db2 “with ur”是什么意思: 在DB2中,共有四种隔离级:RS,RR,CS,UR.以下对四种隔离级进行一些描述,同时附上个人做试验的结果.隔离级 ...
presto 函数中使用子查询
我们已知在sql中子查询可以配合 in 或者 exists 来使用,但是如何把子查询的结果传给函数呢? 场景: 我们有一个省份表数据如下: id province 1 广东 2 ...
Hive 内建操作符与函数开发——深入浅出学Hive
第一部分:关系运算 Hive支持的关系运算符 •常见的关系运算符 •等值比较: = •不等值比较: <> •小于比较: < •小于等于比较: <= •大于比较: > •大 ...
mysql presto 函数收集
格式化日期 presto: select date_format(CURRENT_DATE - INTERVAL '1' month, '%Y-%m') mysql:date_format(DATE ...
用js立即执行函数开发基于bootstrap-multiselect的联动参数菜单
代码调用方式如下: data=[{F0:总分类cd,F1:总分类name,F2:大分类cd,F3:大分类name,F4:中分类cd,F5:中分类name,F6:小分类cd,F7:小分类name},.. ...

随机推荐

elk2
如果使用codec->json进行解码,表示输入到logstast中的input数据必须是json的格式,否则会解码失败 java中一句代码异常会抛出多条的堆栈日志,我们可以使用上面的mutil ...
微信小程序之页面跳转（tabbar跳转及页面内跳转）
一.简介微信小程序页面主要分为tabbar页面和应用内页面,这两种页面的跳转方式不同二.tabBar页面跳转 tabBar 是底部导航栏页面,如下图在app.json中的配置如下: 跳转方式如下 ...
springboot项目打war包发布到外置tomcat
第一步:修改pom.xml 1. <version>0.0.1-SNAPSHOT</version> <packaging>war</packaging> ...
WAF产品记录
WAF产品化 2011-1-13 目标:稳定的版本和标准的手册 1.硬件差异问题,争取了OEM提供硬件样机. 2.OEM功能本来在我们手里,为了更好产品化,配合移交工作. 3.我们做好产品生 ...
Java工具类——数学相关的类
Java工具类--数学相关的类在上一篇文章中,我们系统学习了 Java 里面的包装类,那么这篇文章,我们就来学习一下Java提供好的类--数学相关的类. 一.数学类介绍在最早期学习 Java 基础 ...
让IE下载跟迅雷一样快？
网络上搜的没试过... 修改IE支持多线程即可: HKEY_CURRENT_USER\Software\Microsoft\Windows\CurrentVersion\Internet Settin ...
利用binarySearch实现抽奖计算逻辑
前言我们平时抽奖总感觉想抽到最高的奖那么难,哈哈当然不会那么容易啦,正巧写了个抽奖的功能,趁着有时间把抽奖的功能实现整理一下,我们要抽奖首先要定义一个奖品的实体类,这个实体类中包含奖品的基本信息,比 ...
01 . SaltStack部署配置及简单应用
SaltStack简介 SaltStack saltstack是一个新的基础平台管理工具,只需要花费数分钟即可运行起来,可以支撑管理上万台服务器的规模,数秒钟即可完成数据传递. saltstack是使 ...
RISC-V发展现状
欲观原文,请君移步面对xilinx和ARM联合打造的生态链,FPGA底层RTL逻辑开发人员变得可有可无,有的公司软件工程师都可以直接上手,这让传统的FPGA人员面临着一个尴尬的境地,而RISC-V的 ...
BUUCTF-Misc-No.2
比赛信息比赛地址:Buuctf靶场 [GUET-CTF2019]虚假的压缩包 | SOLVED 解压文件夹,发现2个zip,第一个伪加密,破解后 n=33 e=3 m=0 while m<10 ...

Presto 函数开发