Spark学习之路（十九）SparkSQL的自定义函数UDF

在Spark中，也支持Hive中的自定义函数。自定义函数大致可以分为三种：

UDF(User-Defined-Function)，即最基本的自定义函数，类似to_char,to_date等
UDAF（User- Defined Aggregation Funcation），用户自定义聚合函数，类似在group by之后使用的sum,avg等
UDTF(User-Defined Table-Generating Functions),用户自定义生成函数，有点像stream里面的flatMap

自定义一个UDF函数需要继承UserDefinedAggregateFunction类，并实现其中的8个方法

示例

import org.apache.spark.sql.Row

import org.apache.spark.sql.expressions.{MutableAggregationBuffer, UserDefinedAggregateFunction}

import org.apache.spark.sql.types.{DataType, StringType, StructField, StructType}

object GetDistinctCityUDF extends UserDefinedAggregateFunction{

  /**

    * 输入的数据类型

    * */

  override def inputSchema: StructType = StructType(

    StructField("status",StringType,true) :: Nil

  )

  /**

    * 缓存字段类型

    * */

  override def bufferSchema: StructType = {

    StructType(

      Array(

        StructField("buffer_city_info",StringType,true)

      )

    )

  }

/**

  * 输出结果类型

  * */

  override def dataType: DataType = StringType

/**

  * 输入类型和输出类型是否一致

  * */

  override def deterministic: Boolean = true

/**

  * 对辅助字段进行初始化

  * */

  override def initialize(buffer: MutableAggregationBuffer): Unit = {

    buffer.update(,"")

  }

/**

  *修改辅助字段的值

  * */

  override def update(buffer: MutableAggregationBuffer, input: Row): Unit = {

    //获取最后一次的值

    var last_str = buffer.getString()

    //获取当前的值

    val current_str = input.getString()

    //判断最后一次的值是否包含当前的值

    if(!last_str.contains(current_str)){

      //判断是否是第一个值，是的话走if赋值，不是的话走else追加

      if(last_str.equals("")){

        last_str = current_str

      }else{

        last_str += "," + current_str

      }

    }

    buffer.update(,last_str)

  }

/**

  *对分区结果进行合并

  * buffer1是机器hadoop1上的结果

  * buffer2是机器Hadoop2上的结果

  * */

  override def merge(buffer1: MutableAggregationBuffer, buffer2: Row): Unit = {

    var buf1 = buffer1.getString()

    val buf2 = buffer2.getString()

    //将buf2里面存在的数据而buf1里面没有的数据追加到buf1

    //buf2的数据按照，进行切分

    for(s <- buf2.split(",")){

      if(!buf1.contains(s)){

        if(buf1.equals("")){

          buf1 = s

        }else{

          buf1 += s

        }

      }

    }

    buffer1.update(,buf1)

  }

/**

  * 最终的计算结果

  * */

  override def evaluate(buffer: Row): Any = {

    buffer.getString()

  }

}

注册自定义的UDF函数为临时函数

def main(args: Array[String]): Unit = {

    /**

      * 第一步 创建程序入口

      */

    val conf = new SparkConf().setAppName("AralHotProductSpark")

    val sc = new SparkContext(conf)

    val hiveContext = new HiveContext(sc)
　　//注册成为临时函数

    hiveContext.udf.register("get_distinct_city",GetDistinctCityUDF)

　　//注册成为临时函数

    hiveContext.udf.register("get_product_status",(str:String) =>{

      var status =

      for(s <- str.split(",")){

        if(s.contains("product_status")){

          status = s.split(":")().toInt

        }

      }

    })

}

Spark学习之路（十九）SparkSQL的自定义函数UDF的更多相关文章

Spark学习之路（十九）SparkSQL的自定义函数UDF[转]
在Spark中,也支持Hive中的自定义函数.自定义函数大致可以分为三种: UDF(User-Defined-Function),即最基本的自定义函数,类似to_char,to_date等 UDAF( ...
Spark（十三）SparkSQL的自定义函数UDF与开窗函数
一自定义函数UDF 在Spark中,也支持Hive中的自定义函数.自定义函数大致可以分为三种: UDF(User-Defined-Function),即最基本的自定义函数,类似to_char,to_ ...
Spark学习之路（九）—— Spark SQL 之 Structured API
一.创建DataFrame和Dataset 1.1 创建DataFrame Spark中所有功能的入口点是SparkSession,可以使用SparkSession.builder()创建.创建后应用 ...
Spark学习之路（九）SparkCore的调优之数据倾斜调优
摘抄自:https://tech.meituan.com/spark-tuning-pro.html 数据倾斜调优调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Sp ...
Spark学习之路（九）SparkCore的调优之数据倾斜调优[转]
调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题--数据倾斜,此时Spark作业的性能会比期望差很多.数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的 ...
嵌入式Linux驱动学习之路(十九)触摸屏驱动、tslib测试
触摸屏使用流程: 1. 按下产生中断. 2.在中断处理程序中启动AD转换XY坐标. 3.AD转换结束并产生AD中断. 4. 在AD的中断处理函数中上报信息,启动定时器. 5. 定时器时间到后进入中断, ...
IOS学习之路十九（JSON与Arrays 或者 Dictionaries相互转换）
今天写了个json与Arrays 或者 Dictionaries相互转换的例子很简单: 通过 NSJSONSerialization 这个类的 dataWithJSONObject: options: ...
JavaWeb学习记录（十九）——jstl自定义标签库之传统标签
一.传统标签 (1)JSP引擎将遇到自定义标签时,首先创建标签处理器类的实例对象,然后按照JSP规范定义的通信规则依次调用它的方法. public void setPageContext(PageCo ...
JavaWeb学习记录（十九）——jstl自定义标签之简单标签
一.简单标签共定义了5个方法: setJspContext方法 setParent和getParent方法 setJspBody方法 doTag方法二.方法介绍 osetJspContext方法用 ...

随机推荐

Java如何对List集合的操作方法(一)
目录: list中添加,获取,删除元素: list中是否包含某个元素: list中根据索引将元素数值改变(替换): list中查看(判断)元素的索引: 根据元素索引位置进行的判断: 利用list中索引 ...
使用Redis 计数器防止刷接口
业务需求中经常有需要用到计数器的场景:为了防止恶意刷接口,需要设置一个接口每个IP一分钟.一天等的调用次数阈值:为了降低费用,限制发送短信的次数等.使用Redis的Incr自增命令可以轻松实现以上需求 ...
RNN 网络
原文:http://yangguang2009.github.io/2016/12/18/deeplearning/recurrent-neural-networks-for-deep-learnin ...
json和jsonp的区别？
json返回的是一串json格式数据:而jsonp返回的是脚本代码(包含一个函数调用): jsonp的全名叫做json with padding,就是把 json 对象用符合 js 语法的形式包裹起来 ...
bat实现获取文件每行内容，for循环中运行多条命令
关键词:bat,bat获取文件内容 1.获取每行内容 @echo offfor /f "delims=" %%i in (config.txt) do (echo "%% ...
RadioButton使用
RadioButton和CheckBox差不多,这里只写一个,因为我本身不是学andorid,所以就当给自己留一个备份,省的每次用到都需要代码敲一次,很麻烦 1.如果想选中时想改变颜色可以设置一个xm ...
uploadify3.2.1的参数设置
$('#file_upload').uploadify({ auto:false, //接受true 或 false两个值,当为true时选择文件后会自动上传:为false时只会把选择的文件增加进队列 ...
JVM内存管理（转）
转载出处:http://blog.csdn.net/wind5shy/article/details/8349559 模型 JVM运行时数据区域 JVM执行Java程序的过程中,会使用到各种数据区域, ...
PHP的类，abstract类，interface及关键字extends和implements
原文:https://blog.csdn.net/qq_19557947/article/details/77880757?locationNum=4&fps=1 PHP类 PHP类是单继承, ...
8款不错的 CI/CD工具
Jenkins Jenkins是CI市场中最知名且最常见的名号之一.其最初是由Sun公司的一位工程师打造的一个辅助项目,并迅速扩展为最大的开源CI工具之一,可帮助工程团队实现自动化部署.顺带一提:我们 ...

Spark学习之路 （十九）SparkSQL的自定义函数UDF

Spark学习之路 （十九）SparkSQL的自定义函数UDF的更多相关文章

随机推荐

热门专题

Spark学习之路（十九）SparkSQL的自定义函数UDF

Spark学习之路（十九）SparkSQL的自定义函数UDF的更多相关文章