spark使用udf给dataFrame新增列

在 spark 中给 dataframe 增加一列的方法一般使用 withColumn

// 新建一个dataFrame
val sparkconf = new SparkConf()
  .setMaster("local")
  .setAppName("test")
val spark = SparkSession.builder().config(sparkconf).getOrCreate()
val tempDataFrame = spark.createDataFrame(Seq(
  (1, "asf"),
  (2, "2143"),
  (3, "rfds")
)).toDF("id", "content")
// 增加一列
val addColDataframe = tempDataFrame.withColumn("col", tempDataFrame("id")*0)
addColDataframe.show(10,false)

打印结果如下：

+---+-------+---+
|id |content|col|
+---+-------+---+
|1  |asf    |0  |
|2  |2143   |0  |
|3  |rfds   |0  |
+---+-------+---+

可以看到 withColumn 很依赖原来 dataFrame 的结构，但是假设没有 id 这一列，那么增加列的时候灵活度就降低了很多，假设原始 dataFrame 如下：

+---+-------+
| id|content|
+---+-------+
|  a|    asf|
|  b|   2143|
|  b|   rfds|
+---+-------+

这样可以用 udf 写自定义函数进行增加列：

import org.apache.spark.sql.functions.udf
// 新建一个dataFrame
val sparkconf = new SparkConf()
  .setMaster("local")
  .setAppName("test")
val spark = SparkSession.builder().config(sparkconf).getOrCreate()
val tempDataFrame = spark.createDataFrame(Seq(
  ("a, "asf"),
  ("b, "2143"),
  ("c, "rfds")
)).toDF("id", "content")
// 自定义udf的函数
val code = (arg: String) => {
      if (arg.getClass.getName == "java.lang.String") 1 else 0
    }
val addCol = udf(code)
// 增加一列
val addColDataframe = tempDataFrame.withColumn("col", addCol(tempDataFrame("id")))
addColDataframe.show(10, false)

得到结果：

+---+-------+---+
|id |content|col|
+---+-------+---+
|a  |asf    |1  |
|b  |2143   |1  |
|c  |rfds   |1  |
+---+-------+---+

还可以写下更多的逻辑判断：

// 新建一个dataFrame
val sparkconf = new SparkConf()
  .setMaster("local")
  .setAppName("test")
val spark = SparkSession.builder().config(sparkconf).getOrCreate()
val tempDataFrame = spark.createDataFrame(Seq(
  (1, "asf"),
  (2, "2143"),
  (3, "rfds")
)).toDF("id", "content")
val code :(Int => String) = (arg: Int) => {if (arg < 2) "little" else "big"}
val addCol = udf(code)
val addColDataframe = tempDataFrame.withColumn("col", addCol(tempDataFrame("id")))
addColDataframe.show(10, false)

+---+-------+------+
|1  |asf    |little|
|2  |2143   |big   |
|3  |rfds   |big   |
+---+-------+------+

传入多个参数：

val sparkconf = new SparkConf()
  .setMaster("local")
  .setAppName("test")
val spark = SparkSession.builder().config(sparkconf).getOrCreate()
val tempDataFrame = spark.createDataFrame(Seq(
  ("1", "2"),
  ("2", "3"),
  ("3", "1")
)).toDF("content1", "content2")
val code = (arg1: String, arg2: String) => {
  Try(if (arg1.toInt > arg2.toInt) "arg1>arg2" else "arg1<=arg2").getOrElse("error")
}
val compareUdf = udf(code)
val addColDataframe = tempDataFrame.withColumn("compare", compareUdf(tempDataFrame("content1"),tempDataFrame("content2")))
addColDataframe.show(10, false)

+--------+--------+----------+
|content1|content2|compare   |
+--------+--------+----------+
|1       |2       |arg1<=arg2|
|2       |3       |arg1<=arg2|
|3       |1       |arg1>arg2 |
+--------+--------+----------+

spark使用udf给dataFrame新增列的更多相关文章

Spark SQL DataFrame新增一列的四种方法
方法一:利用createDataFrame方法,新增列的过程包含在构建rdd和schema中方法二:利用withColumn方法,新增列的过程包含在udf函数中方法三:利用SQL代码,新增列的过程 ...
Spark获取DataFrame中列的方式--col，$，column，apply
Spark获取DataFrame中列的方式--col,$,column,apply 1.官方说明 2.使用时涉及到的的包 3.Demo 原文作者:大葱拌豆腐原文地址:Spark获取DataFrame ...
spark编写UDF和UDAF
UDF: 一.编写udf类,在其中定义udf函数 package spark._sql.UDF import org.apache.spark.sql.functions._ /** * AUTHOR ...
spark计算两个DataFrame的差集、交集、合集
spark 计算两个dataframe 的差集.交集.合集,只选择某一列来对比比较好.新建两个 dataframe : import org.apache.spark.{SparkConf, Spar ...
Spark创建空的DataFrame
前言本文主要给出Spark创建空的DataFrame的代码示例,这里讲的空的DataFrame主要指有列名(可以自己随意指定),但是没有行的DataFrame,因为自己在开发过程中有这个需求,之前并 ...
Kafka：ZK+Kafka+Spark Streaming集群环境搭建（十五）Spark编写UDF、UDAF、Agg函数
Spark Sql提供了丰富的内置函数让开发者来使用,但实际开发业务场景可能很复杂,内置函数不能够满足业务需求,因此spark sql提供了可扩展的内置函数. UDF:是普通函数,输入一个或多个参数, ...
Spark与Pandas中DataFrame对比
Pandas Spark 工作方式单机single machine tool,没有并行机制parallelism不支持Hadoop,处理大量数据有瓶颈分布式并行计算框架,内建并行机制paral ...
Spark与Pandas中DataFrame对比（详细）
Pandas Spark 工作方式单机single machine tool,没有并行机制parallelism不支持Hadoop,处理大量数据有瓶颈分布式并行计算框架,内建并行机制paral ...
（转）实现DataList的分页新增列
前几天在做网上商城,要展示商品信息(有图片,有文字),DataView虽然可以分页,但它的缺点是不能自定义显示格式.而DataList解决了它的缺点,但DataList本身却不能分页.很是头痛,于是在 ...

随机推荐

SignalR具有自签名SSL和自主机
SignalR具有自签名SSL和自主机在研究中试过我的运气,但到目前为止还没有快乐. 我想将SignalR javascript客户端连接到自签名的SignalR Windows服务绑定到自签名 ...
day23.面向对象之继承
1.什么是继承继承是一种创建新类的方式,在python中,新建的类可以继承一个或多个父类,父类又可称为基类或超类,新建的类称为派生类或子类 python中类的继承分为:单继承和多继承 class A ...
Archiver 3 for Mac(解压缩工具) ，想压缩解压慢一点就这么难！
Archiver 3 for Mac是一款分割合并解压缩工具,简单实用且功能齐全,你只需简单的拖放文件就可以进行压缩,还可以设定解压密码,从而保护自己的隐私.如果文件很大你还可以切割文件.Archiv ...
SpringBoot报错
同时生成了两个mapper,删除一个就行了
初学笔记之：Java_Script的for循环事件绑定
看JS,一直纠结于for循环事件绑定,我一直不理解,想找到一些解释,以下是个人研究一个下午后的一些见解,有不对的还望大神们指正,轻喷.在这里谢过啦. 首先,目的是做一个滑动切换图片的效果,上JS代码: ...
机器学习入门之sklearn介绍
SKlearn简介 scikit-learn,又写作sklearn,是一个开源的基于python语言的机器学习工具包.它通过NumPy, SciPy和Matplotlib等python数值计算的库实现 ...
Tag Helpers 的使用介绍
什么是 Tag Helpers ? 在 Razor 文件中,Tag Helpers 能够让服务端代码参与创建和渲染 HTML 元素.例如,内置的ImageTagHelper能够在图像名称后面追加版本号 ...
codeforces1152 div2
比赛的链接 C gcd(a+k, b+k) == gcd(a+k, b-a) #include <bits/stdc++.h> using namespace std; const int ...
如何让Qt程序在运行时获取UAC权限
在pro文件中加入以下语句: QMAKE_LFLAGS += /MANIFESTUAC:\"level=\'requireAdministrator\' uiAccess=\'false\' ...
[linux]CentOS安装pre-built Nginx
官方文档:https://nginx.org/en/linux_packages.html Nginx安装分为软件包安装和pre-built安装.这里使用的pre-built安装,不用自己编译. 设置 ...

spark使用udf给dataFrame新增列

spark使用udf给dataFrame新增列的更多相关文章

随机推荐

热门专题