pyspark 日常整理

1 联表

　　df1.join(df2，连接条件，连接方式)

　　如：df1.join(df2,[df1.a==df2.a], "inner").show()

　　连接方式：字符串类型，如 "left" ，常用的有：inner, cross, outer, full, full_outer, left, left_outer, right, right_outer

　　连接条件： df1["a"] == df2["a"] 或 "a" 或 df1.a == df2.a ，如有多个条件的情况如,[df1["a"] == df2["a"] ，df1["b"] == df2["b"] ] 或 (df.a > 1) & (df.b > 1)

　　需要注意的：

　　如果使用 "a" 进行连接，则会自动合并相同字段，只输入一个。如 df1.join(df2，"a"，"left") 只输出df1的 a字段，df2 的 a 字段是去掉了。

2 udf使用

　　需添加引用

　　from pyspark.sql.functions import udf
　　from pyspark.sql import functions as F

　　有两种方式：

　　第一种

　　def get_tablename(a):

　　　　return "name"

　　get_tablename_udf = F.udf(get_tablename)

　　第二种

　　@udf

　　def get_tablename_udf (a):

　　　　return "name"

　　两种方式的调用是一样的

　　df.withColumn("tablename", get_tablename_udf (df[a"]))

3 分组

　　使用groupBy方法

　　单个字段：df.groupBy("a") 或 df.groupBy(df.a)

　　多个字段：df.groupBy([df.a, df.b]) 或 df.groupBy(["a", "b"])

　　需要注意的：

　　groupBy方法后面一定要跟字段输出方法,如：agg()、select()等

4 查询条件

　　使用 filter() 或 where() ，两者一样的。

　　单条件： df.filter(df.a > 1) 或 df.filter("a > 1")

　　多条件：df.filter("a > 1 and b > 0 ") 或 df.filter((df.a > 1) & (df.b ==0))

5 替换null值

　　使用 fillna() 或 fill()方法

　　df.fillna({"a":0, "b":""})

　　df.na.fill({"a":0, "b":""})

6 排序

　　使用 orderBy() 或 sort()方法

　　df.orderBy(df.a.desc())

　　df.orderBy(desc("age"), asc("name"))

df.orderBy(["age", "name"], ascending=[0, 1])

　　df.orderBy(["age", "name"], ascending=False)

　　需要注意的:

　　ascending 默认为True 升序， False 降序

7 新增列

　　使用 withColumn() 或 alias()方法

　　df.withColumn("b",F.lit(999))

　　df.withColumn("b",df.a)

　　df.withColumn("b",df.a).withColumn("m","m1")

　　df.agg(F.lit(ggg).alias("b"))

　　df.select(F.lit(ggg).alias("b"))

　　需要注意的：

　　withColumn方法会覆盖df里面原有的同名的列

8 重命名列名

　　使用 withColumnRenamed() 方法

　　df.withColumnRenamed("a","a1").withColumnRenamed("m","m1")　

　　需要注意的点：

　　确定要重命名的列在df里面存在

9 创建新的DataFrame

　　使用createDataFrame()方法

　　spark.createDataFrame(数据集, 列集合) 例如：spark.createDataFrame([(5, "hello")], ['a', 'b'])

　　需要注意的：

　　数据集和列集合个数要一致

　　 spark为 SparkSession 对象，例如：spark = SparkSession.builder.master("local").appName("Word Count").config("spark.some.config.option", "some-value").getOrCreate()

10 并集

　　使用union() 或 unionAll() 方法

　　df.union(df1)

　　需要注意的：

　　这两个方法都不会主动消除重复项的，如需要，在后面跟distinct() 如：df.union(df1).distinct()

　　这两个方法都是按照数据列的摆放顺序进行合并，而不是根据列名

　　两个结果集的列数量要保证一样大小

11 交集

　　使用 intersect()方法

　　df1.select("a").intersect(df2.select("a"))

　　返回 df1和df2 中相同的a 字段

12 差集

　　使用 subtract()方法

　　df1.select("a").subtract(df2.select("a"))　　

　　返回 df1 有，而df2 没有的 a 字段值。

　　需要注意的：

　取的是df1的数据

13 判断是否NULL值

　　使用isNull()方法或 sql语句

　　df.where(df["a"].isNull())

　　df.where("a is null")

14 在计算条件中加入判断

　　使用when() 方法

　　df.select(when(df.age == 2, 1).alias("age"))　

　　age列的值：当满足when条件，则输出1 ，否则，输出NULL　

　　多个条件：when((df.age == 2) & (df.name == '"name") , 1)

pyspark 日常整理的更多相关文章

JavaScript中常用的正则表达式日常整理(全)
//校验是否全由数字组成 ? 1 2 3 4 5 6 function isDigit(s) { var patrn=/^[0-9]{1,20}$/; if (!patrn.exec(s)) retu ...
IDEA快捷键日常整理
F9 : debug Ctrl+” +/- ” : 当前方法展开.折叠 Ctrl+Shift+”+/-” : 全部展开.折叠 Alt+1 : 工程面板 Alt+4:控制台 Alt+7:查看本类方法 S ...
js/jq基础（日常整理记录）-4-一个简单的自定义tree插件
一.一个简单的自定义tree插件上一篇是之前自定义的table插件,这一篇也是之前同期尝试做的一个tree插件. 话不多说,先看看长什么样子哈! 现在来看确实不好看,以后在优化吧! 数据源:ajax ...
js/jq基础（日常整理记录）-3-一个自定义表格
一.一个自定义的表格这个js是我刚工作的时候,我们老大让我做一个功能,我觉得html自带的table功能单一,没有分页和排序功能,所有就尝试着做一下,所以这个东西就出来了.很久没写博客了,贴出来吧, ...
js/jq基础（日常整理记录）-2-一个简单的js方法实现集合的非引用拷贝
一.一个简单的js方法实现集合拷贝做web项目的时候,少不了和js中的数组,集合等对象接触,那么你肯定会发现,在js中存在一个怪异的现象就是数组和集合的拷贝都是地址复制,并不是简单的数据的拷贝. 举 ...
js/jq基础（日常整理记录）-1-纯js格式化时间
一.纯js格式化时间之前记录了一些,工作中发现的比较常用的使用,就记录一下. 由于很基础,就直接贴出来了,不做分析了. 改造一下Date的原型 Date.prototype.format = fun ...
python面试大全
问题一:以下的代码的输出将是什么? 说出你的答案并解释. class Parent(object): x = 1 class Child1(Parent): pass class Child2(Par ...
python公司面试题集锦 python面试题大全
问题一:以下的代码的输出将是什么? 说出你的答案并解释. class Parent(object): x = 1 class Child1(Parent): pass class Child2(Par ...
oracle常用命令【转载】
oracle常用命令一.Oracle数据库实例.用户.目录及session会话查看: 1.ORACLE SID查看设置查看SID.用户名 $ env|grep SID .select * from ...

随机推荐

C# - VS2019WinFrm桌面应用程序FtpClient实现
前言本篇主要记录:VS2019 WinFrm桌面应用程序实现简单的FtpClient,包含Ftp文件查看.上传和下载等功能. 准备工作搭建WinFrm前台界面添加必要的控件,这里主要应用到Gro ...
linux 如何指定nologin用户执行命令
在linux中建立网站时,我们一般分配一个www之类的用户给网站应用程序. 如果我们使用root或者具有管理员权限的账号在网站目录下去创建文件时,会遇到各种权限问题. 这时我们可以切换到www用户,这 ...
word转html预览
#region Index页面 /// <summary> /// Index页面 /// </summary> /// <paramname="url&quo ...
C 内置函数
*) strcat()用于连接两个字符串 *) 函数 memcpy() 用来复制内存到另一个位置.
Java生鲜电商平台-redis缓存在商品中的设计与架构
Java生鲜电商平台-redis缓存在商品中的设计与架构说明:Java开源生鲜电商平台-redis缓存在商品中的设计与架构. 1. 各种计数,商品维度计数和用户维度计数说起电商,肯定离不开商品,而 ...
虚拟机中安装Kali遇到的问题及解决方法
title: 虚拟机中安装Kali遇到的问题及解决方法 date: 2018-11-25 12:25:43 tags: 安全 --- 关于Kali版本选择 kail官方下载页面虚拟机中当然就下载虚拟 ...
Windows动态链接库：dll与exe相互调用问题
本文回顾学习一下Windows动态链接库:dll与exe相互调用问题.一般滴,exe用来调用dll中的类或函数,但是dll中也可以调用exe中的类或函数,本文做一些尝试总结. dll程序: Calcu ...
不了解MES系统中的看板管理?看完本文就懂了
如果想要在生产车间中,让生产过程管理都处在“看得见”的状态,那么看板可视化管理的导入是你的不二选择. MES看板包括四个部分:生产任务看板.各生产单位生产情况看板.质量看板和物料看板,其中生产任务看板 ...
Linux open fopen fdopen
int open(const char *pathname, int flags); int open(const char *pathname, int flags, mode_t mode); 以 ...
itextpdf5单元格中的段落没有行间距
关于对表格中的段落没有行间距的解决方式:通过观察和推测的结论:itextpdf对一些属性,只会对最外层元素的属性进行接收处理,如行间距.例: Paragraph p = new Paragraph(1 ...

pyspark 日常整理

pyspark 日常整理的更多相关文章

随机推荐

热门专题