45、sparkSQL UDF&UDAF

一、UDF

1、UDF

UDF：User Defined Function。用户自定义函数。

2、scala案例

package cn.spark.study.sql

import org.apache.spark.SparkConf

import org.apache.spark.SparkContext

import org.apache.spark.sql.SQLContext

import org.apache.spark.sql.Row

import org.apache.spark.sql.types.StructType

import org.apache.spark.sql.types.StructField

import org.apache.spark.sql.types.StringType

object UDF {

  def main(args: Array[String]): Unit = {

    val conf = new SparkConf().setMaster("local").setAppName("UDF")

    val sc = new SparkContext(conf)

    val sqlContext = new SQLContext(sc)

    // 构造模拟数据

    val names = Array("Leo", "Marry", "Jack", "Tom")

    val namesRDD = sc.parallelize(names, 5)

    val namesRowRDD = namesRDD.map(name => Row(name))

    val structType = StructType(Array(StructField("name", StringType, true)))

    val namesDF = sqlContext.createDataFrame(namesRowRDD, structType)

    // 注册一张names表

    namesDF.registerTempTable("names")

    // 定义和注册自定义函数

    // 定义函数：自己写匿名函数

    // 注册函数：SQLContext.udf.register()

    // UDF函数名：strLen； 函数体(匿名函数)：(str: String) => str.length()

    sqlContext.udf.register("strLen", (str: String) => str.length())

    // 使用自定义函数

    sqlContext.sql("select name, strLen(name) from names")

      .collect()

      .foreach(println)

  }

}

3、java案例

package cn.spark.study.sql;

import java.util.ArrayList;

import java.util.List;

import org.apache.spark.SparkConf;

import org.apache.spark.api.java.JavaRDD;

import org.apache.spark.api.java.JavaSparkContext;

import org.apache.spark.api.java.function.Function;

import org.apache.spark.api.java.function.VoidFunction;

import org.apache.spark.sql.DataFrame;

import org.apache.spark.sql.Row;

import org.apache.spark.sql.RowFactory;

import org.apache.spark.sql.SQLContext;

import org.apache.spark.sql.api.java.UDF1;

import org.apache.spark.sql.types.DataTypes;

import org.apache.spark.sql.types.StructField;

import org.apache.spark.sql.types.StructType;

public class UDF {

    public static void main(String[] args) {

        SparkConf conf = new SparkConf().setAppName("UDFJava").setMaster("local");

        JavaSparkContext sparkContext = new JavaSparkContext(conf);

        SQLContext sqlContext = new SQLContext(sparkContext);

        List<String> stringList = new ArrayList<String>();

        stringList.add("Leo");

        stringList.add("Marry");

        stringList.add("Jack");

        stringList.add("Tom");

        JavaRDD<String> rdd = sparkContext.parallelize(stringList);

        JavaRDD<Row> nameRDD = rdd.map(new Function<String, Row>() {

            private static final long serialVersionUID = 1L;

            @Override

            public Row call(String v1) throws Exception {

                return RowFactory.create(v1);

            }

        });

        List<StructField> fieldList = new ArrayList<StructField>();

        fieldList.add(DataTypes.createStructField("name", DataTypes.StringType, true));

        StructType structType = DataTypes.createStructType(fieldList);

        DataFrame dataFrame = sqlContext.createDataFrame(nameRDD, structType);

        dataFrame.registerTempTable("name");

        sqlContext.udf().register("strLen", new UDF1<String, Integer>() {

            private static final long serialVersionUID = 1L;

            @Override

            public Integer call(String s) throws Exception {

                // TODO Auto-generated method stub

                return s.length();

            }

        }, DataTypes.IntegerType);

        sqlContext.sql("select name, strLen(name) from name").javaRDD().

        foreach(new VoidFunction<Row>() {

            private static final long serialVersionUID = 1L;

            @Override

            public void call(Row row) throws Exception {

                System.out.println(row);

            }

        });

    }

}

二、UDAF

1、概述

UDAF：User Defined Aggregate Function。用户自定义聚合函数。是Spark 1.5.x引入的最新特性。

UDF，其实更多的是针对单行输入，返回一个输出，这里的UDAF，则可以针对一组(多行)输入，进行聚合计算，返回一个输出，功能更加强大

使用：

1. 自定义类继承UserDefinedAggregateFunction，对每个阶段方法做实现

2. 在spark中注册UDAF，为其绑定一个名字

3. 然后就可以在sql语句中使用上面绑定的名字调用

2、scala案例

统计字符串次数的例子，先定义一个类继承UserDefinedAggregateFunction：

package cn.spark.study.sql

import org.apache.spark.sql.expressions.UserDefinedAggregateFunction

import org.apache.spark.sql.types.StructType

import org.apache.spark.sql.types.DataType

import org.apache.spark.sql.expressions.MutableAggregationBuffer

import org.apache.spark.sql.Row

import org.apache.spark.sql.types.StructField

import org.apache.spark.sql.types.StringType

import org.apache.spark.sql.types.IntegerType

/**

 * @author Administrator

 */

class StringCount extends UserDefinedAggregateFunction {  

  // inputSchema，指的是，输入数据的类型

  def inputSchema: StructType = {

    StructType(Array(StructField("str", StringType, true)))

  }

  // bufferSchema，指的是，中间进行聚合时，所处理的数据的类型

  def bufferSchema: StructType = {

    StructType(Array(StructField("count", IntegerType, true)))

  }

  // dataType，指的是，函数返回值的类型

  def dataType: DataType = {

    IntegerType

  }

  def deterministic: Boolean = {

    true

  }

  // 为每个分组的数据执行初始化操作

  def initialize(buffer: MutableAggregationBuffer): Unit = {

    buffer(0) = 0

  }

  // 指的是，每个分组，有新的值进来的时候，如何进行分组对应的聚合值的计算

  def update(buffer: MutableAggregationBuffer, input: Row): Unit = {

    buffer(0) = buffer.getAs[Int](0) + 1

  }

  // 由于Spark是分布式的，所以一个分组的数据，可能会在不同的节点上进行局部聚合，就是update

  // 但是，最后一个分组，在各个节点上的聚合值，要进行merge，也就是合并

  def merge(buffer1: MutableAggregationBuffer, buffer2: Row): Unit = {

    buffer1(0) = buffer1.getAs[Int](0) + buffer2.getAs[Int](0)

  }

  // 最后，指的是，一个分组的聚合值，如何通过中间的缓存聚合值，最后返回一个最终的聚合值

  def evaluate(buffer: Row): Any = {

    buffer.getAs[Int](0)

  }

}

然后注册并使用它：

package cn.spark.study.sql

import org.apache.spark.SparkConf

import org.apache.spark.SparkContext

import org.apache.spark.sql.SQLContext

import org.apache.spark.sql.Row

import org.apache.spark.sql.types.StructType

import org.apache.spark.sql.types.StructField

import org.apache.spark.sql.types.StringType

/**

 * @author Administrator

 */

object UDAF {

  def main(args: Array[String]): Unit = {

    val conf = new SparkConf()

        .setMaster("local")

        .setAppName("UDAF")

    val sc = new SparkContext(conf)

    val sqlContext = new SQLContext(sc)

    // 构造模拟数据

    val names = Array("Leo", "Marry", "Jack", "Tom", "Tom", "Tom", "Leo")

    val namesRDD = sc.parallelize(names, 5)

    val namesRowRDD = namesRDD.map { name => Row(name) }

    val structType = StructType(Array(StructField("name", StringType, true)))

    val namesDF = sqlContext.createDataFrame(namesRowRDD, structType) 

    // 注册一张names表

    namesDF.registerTempTable("names")  

    // 定义和注册自定义函数

    // 定义函数：自己写匿名函数

    // 注册函数：SQLContext.udf.register()

    sqlContext.udf.register("strCount", new StringCount) 

    // 使用自定义函数

    sqlContext.sql("select name,strCount(name) from names group by name")

        .collect()

        .foreach(println)

  }

}

45、sparkSQL UDF&UDAF的更多相关文章

简述UDF/UDAF/UDTF是什么，各自解决问题及应用场景
UDF User-Defined-Function 自定义函数 .一进一出: 背景系统内置函数无法解决实际的业务问题,需要开发者自己编写函数实现自身的业务实现诉求. 应用场景非常多,面临的业务不同导 ...
45、[源码]-Spring容器创建-执行BeanFactoryPostProcessor
45.[源码]-Spring容器创建-执行BeanFactoryPostProcessor 5.invokeBeanFactoryPostProcessors(beanFactory);执行BeanF ...
Spark(十三)【SparkSQL自定义UDF/UDAF函数】
目录一.UDF(一进一出) 二.UDAF(多近一出) spark2.X 实现方式案例 ①继承UserDefinedAggregateFunction,实现其中的方法 ②创建函数对象,注册函数,在s ...
[转]HIVE UDF/UDAF/UDTF的Map Reduce代码框架模板
FROM : http://hugh-wangp.iteye.com/blog/1472371 自己写代码时候的利用到的模板 UDF步骤: 1.必须继承org.apache.hadoop.hive ...
2、Hive UDF编程实例
Hive的UDF包括3种:UDF(User-Defined Function).UDAF(User-Defined Aggregate Function)和UDTF(User-Defined Tabl ...
Hive 自定义函数 UDF UDAF UDTF
1.UDF:用户定义(普通)函数,只对单行数值产生作用: 继承UDF类,添加方法 evaluate() /** * @function 自定义UDF统计最小值 * @author John * */ ...
【转】HIVE UDF UDAF UDTF 区别使用
原博文出自于:http://blog.csdn.net/longzilong216/article/details/23921235(暂时) 感谢! 自己写代码时候的利用到的模板 UDF步骤: 1 ...
SparkSQL之UDAF使用
1.创建一个类继承UserDefinedAggregateFunction类. ------------------------------------------------------------ ...
sparksql udf的运用----scala及python版（2016年7月17日前完成）
问:udf在sparksql 里面的作用是什么呢? 答:oracle的存储过程会有用到定义函数,那么现在udf就相当于一个在sparksql用到的函数定义: 第二个问题udf是怎么实现的呢? regi ...

随机推荐

python中的可哈希与不可哈希
什么是可哈希(hashable)? 简要的说可哈希的数据类型,即不可变的数据结构(字符串str.元组tuple.对象集objects). 哈希有啥作用? 它是一个将大体量数据转化为很小数据的过程,甚至 ...
go liteIDE 快捷键
Goland常用快捷键文件相关快捷键: CTRL+E,打开最近浏览过的文件.CTRL+SHIFT+E,打开最近更改的文件.CTRL+N,可以快速打开struct结构体.CTRL+SHIFT+N,可以快 ...
mpvue + vant + flyio 小程序项目总结
vant 的使用我开始是 npm 导入,然后 import,使用不了. 找了各种方法,最后还是下载文件,然后找到 dist 文件夹,复制到项目里,我是放在 static 文件夹,文件名 dist 重 ...
GRE
第一个技术是GRE,全称Generic Routing Encapsulation,它是一种IP-over-IP的隧道技术.它将IP包封装在GRE包里,外面加上IP头,在隧道的一端封装数据包,并在通路 ...
Redis之RDB和AOF持久化介绍
什么是数据库状态 redis是一个键值对的数据库服务器,服务器中通常包含中任意个非空的数据库,而每个数据库又可以包含任意个键值对,为了方便起见,我们将服务器中的非空数据库以及他们的键值对统称为数据库状 ...
4.linux下配置Golang的环境变量
装好linux后优先在linux上配置Golang开发环境. 1.到Go语言中文网下载Linux安装包 https://studygolang.com/dl 2.到下载的目录下解压,下载的文件一般在“ ...
Python定义点击右上角关闭按钮事件
Python定义点击右上角关闭按钮事件(Python defines the event of clicking the close button in the upper right corner) ...
javascript中的prototype和__proto__的理解
在工作中有时候会看到prototype和__proto__这两个属性,对这两个属性我一直比较蒙圈,但是我通过查阅相关资料,决定做一下总结加深自己的理解,写得不对的地方还请各位大神指出. 跟__prot ...
Jmeter学习笔记（十三）——xpath断言
1.什么是XPath断言 XPath即为XML路径语言,它是一种用来确定XML(标准通用标记语言的子集)文档中某部分位置的语言.XPath基于XML的树状结构,提供在数据结构树中找寻节点的能力. Ap ...
制作IOS ANE的基本流程
来源:http://www.swfdiy.com/?p=1239 1. 使用xcode新建ios上的static library 工程 2. 从air sdk/include里拷贝flashrunti ...

45、sparkSQL UDF&UDAF

45、sparkSQL UDF&UDAF的更多相关文章

随机推荐

热门专题