Spark学习摘记 —— RDD转化操作API归纳
本文参考
在阅读了《Spark快速大数据分析》动物书后,大概了解到了spark常用的api,不过书中并没有给予所有api具体的示例,而且现在spark的最新版本已经上升到了2.4.5,动物书中的spark版本还停留在1.2.0,所以就有了这篇文章,在最新的2.4.5版本下测试常用的api
由于spark的惰性计算特性,RDD只有在第一次行动操作中被用到时才会真正进行计算,因此我打算将文章内容分为"转化操作API"和"行动操作API"两部分,同时因为pair RDD(RDD中的元素是键值对)的部分api较为特殊,所以我打算单独再写一篇文章
本文仅介绍转化操作API,前5个api —— map()、flatMap()、filter()、distinct()、sample()是针对一个RDD的转化操作,后续的api —— union()、intersection()、subtract()、cartesion()是针对两个RDD的转化操作
RDD行动操作API归纳:https://www.cnblogs.com/kuluo/p/12550938.html
Pair RDD转化操作API归纳:https://www.cnblogs.com/kuluo/p/12558563.html
Pair RDD行动操作API归纳:https://www.cnblogs.com/kuluo/p/12567221.html
环境
idea + spark 2.4.5 + scala 2.11.12
RDD均通过SparkContext的parallelize()函数创建
map()函数
目的:
将函数应用于RDD中的每个元素,将返回值构成新的RDD
转化前后的RDD的元素类型可以不同(比如经典的WordCount示例中转化为了键值对元素)
代码:
val testList = List(1, 2, 3, 3)
val testRdd = sc.parallelize(testList)
testRdd.map(ele => ele * ele).foreach(ele => print(s"$ele "))
输出:
1 4 9 9
更高效的操作:
每个RDD被分为多个分区,这些分区在集群的不同节点上运行,可以使用mapPartitions()函数,将转化操作作用于每个分区的元素上,这种方法还可以为每个分区创建一个JDBC连接,而不是为每一个元素创建一个连接(此处不做示例)
mapPartitions()函数有两个参数,第一个参数接收一个函数,和map()函数相同,第二个参数为preservesPartitioning,默认值为false,仅当我们对pair RDD进行转化操作,并且没有修改键时设置为true
val testList = List(1, 2, 3, 3)
val testRdd = sc.parallelize(testList)
testRdd.mapPartitions(partition =>
partition.map(
ele => {
ele * ele
}
)).foreach(ele => print(s"$ele "))
flatMap()函数
目的:
将函数应用于RDD中的每个元素,将返回的迭代器的所有内容构成新的RDD,我们也常常说成是"压扁"
"压扁"这个词可能听上去不大好理解,我们提供给flatMap()的函数分别应用到RDD的那个元素上,不过返回的不是一个元素,而是一个返回值序列的迭代器,但输出的RDD不是由迭代器组成,得到的是一个包含各个迭代器可以访问的所有元素的RDD
转化前后的RDD的元素类型不变
代码:
val testList = List(1, 2, 3, 3)
val testRdd = sc.parallelize(testList)
testRdd.flatMap(ele => {
ele.to(5)
}).foreach(ele => print(s"$ele "))
我们也可以手动返回迭代器,这段代码也类似于
val testList = List(Range(1, 6), Range(2, 6), Range(3, 6), Range(3, 6))
val testRdd = sc.parallelize(testList)
testRdd.flatMap(_.iterator).foreach(ele => print(s"$ele "))
输出:
1 2 3 4 5 2 3 4 5 3 4 5 3 4 5
filter()函数
目的:
返回一个由传给filter()函数的元素组成的RDD,当函数返回值为true时,保留该元素,可以理解为 "被过滤"出来
代码:
val testList = List(1, 2, 3, 3)
val testRdd = sc.parallelize(testList)
testRdd.filter(ele => ele > 2).foreach(ele => print(s"$ele "))
输出:
3 3
更高效的操作:
通过过滤操作后,RDD中的元素减少,可以在filter()操作后执行coalesce()函数进行分区合并,第一个参数指定分区数,当指定的分区数大于当前RDD的分区数时不会进行合并,当前分区数不变(除非指定第二参数shuffle为true,默认为false),当指定的分区数小于当前的RDD的分区数时会进行合并,并且不会进行shuffle(尽量不要指定极端的情况,如指定合并后的分区数为1)
val testList = List(1, 2, 3, 3)
val testRdd = sc.parallelize(testList)
testRdd.filter(ele => ele > 2).coalesce(5).foreach(ele => print(s"$ele "))
distinct()函数
目的:
去重,因为会进行shuffle,所以不推荐此操作
代码:
val testList = List(1, 2, 3, 3)
val testRdd = sc.parallelize(testList)
testRdd.distinct().foreach(ele => print(s"$ele "))
输出:
1 2 3
sample()函数
目的:
对RDD进行采样
代码:
val testList = List(0, 1, 2, 3, 4, 5, 6, 7, 8, 9)
val testRdd = sc.parallelize(testList)
testRdd.sample(false, 0.9).foreach(ele => print(s"$ele "))
第一个参数withReplacement指定false时,第二个参数fraction必须为 [ 0 , 1 ] 之间,表示每个元素被选中的可能性
按照该示例,也有人将该函数理解为,从所有元素中抽取90%返回,但是在源码中我们可以看到:
without replacement: probability that each element is chosen; fraction must be [0, 1]
This is NOT guaranteed to provide exactly the fraction of the count of the given [[RDD]]
因此这种理解方式我认为是错误的
输出:
0 1 2 3 5 6 8 9(不一定)
疑点:
当第一个参数withReplacement指定true时,第二个参数fraction并不要求一定小于1,源码中注释为"with replacement: expected number of times each element is chosen; fraction must be greater than or equal to 0"
val testList = List(0, 1, 2, 3, 4, 5, 6, 7, 8, 9)
val testRdd = sc.parallelize(testList)
testRdd.sample(true, 3).foreach(ele => print(s"$ele "))
输出:0 0 1 1 1 1 2 2 2 3 3 3 3 4 4 4 4 4 5 5 5 5 5 5 6 6 7 7 8 9 9
目前不大理解是如何在采样的,希望各位看官大大能在评论区发表看法哈
unon()函数
目的:
相当于集合运算的并集,生成一个包含两个RDD中所有元素的RDD,要求两个RDD的元素类型相同
代码:
val testList1 = List(1, 2, 3)
val testList2 = List(3, 4, 5)
val testRdd1 = sc.parallelize(testList1)
val testRdd2 = sc.parallelize(testList2)
testRdd1.union(testRdd2).foreach(ele => print(s"$ele "))
输出:
1 2 3 3 4 5
intersection()函数
目的:
相当于集合运算的交集,求两个RDD共同的元素的RDD,要求两个RDD的元素类型相同
代码:
val testList1 = List(1, 2, 3)
val testList2 = List(3, 4, 5)
val testRdd1 = sc.parallelize(testList1)
val testRdd2 = sc.parallelize(testList2)
testRdd1.intersection(testRdd2).foreach(ele => print(s"$ele "))
输出:
3
subtract()函数
目的:
想当于集合运算的差集,移除一个RDD中的内容,要求两个RDD的元素类型相同
代码:
val testList1 = List(1, 2, 3)
val testList2 = List(3, 4, 5)
val testRdd1 = sc.parallelize(testList1)
val testRdd2 = sc.parallelize(testList2)
testRdd1.subtract(testRdd2).foreach(ele => print(s"$ele "))
输出:
1 2
cartesion()函数
目的:
与另一个RDD的笛卡尔积
代码:
val testList1 = List(1, 2, 3)
val testList2 = List('a', 'b', 'c')
val testRdd1 = sc.parallelize(testList1)
val testRdd2 = sc.parallelize(testList2)
testRdd1.cartesian(testRdd2).foreach(ele => print(s"$ele "))
输出:
(1,a) (1,b) (1,c) (2,a) (2,b) (2,c) (3,a) (3,b) (3,c)
Spark学习摘记 —— RDD转化操作API归纳的更多相关文章
- Spark学习摘记 —— RDD行动操作API归纳
本文参考 参考<Spark快速大数据分析>动物书中的第三章"RDD编程",前一篇文章已经概述了转化操作相关的API,本文再介绍行动操作API 和转化操作API不同的是, ...
- Spark学习摘记 —— Pair RDD转化操作API归纳
本文参考 参考<Spark快速大数据分析>动物书中的第四章"键值对操作",由于pair RDD的一些特殊操作,没有和前面两篇的API归纳放在一起做示例 前面的几个api ...
- Spark学习摘记 —— Pair RDD行动操作API归纳
本文参考 参考<Spark快速大数据分析>动物书中的第四章"键值对操作",本篇是对RDD转化操作和行动操作API归纳的最后一篇 RDD转化操作API归纳:https:/ ...
- Spark学习之RDD编程(2)
Spark学习之RDD编程(2) 1. Spark中的RDD是一个不可变的分布式对象集合. 2. 在Spark中数据的操作不外乎创建RDD.转化已有的RDD以及调用RDD操作进行求值. 3. 创建RD ...
- Spark学习之RDD编程总结
Spark 对数据的核心抽象——弹性分布式数据集(Resilient Distributed Dataset,简称 RDD).RDD 其实就是分布式的元素集合.在 Spark 中,对数据的所有操作不外 ...
- spark学习(10)-RDD的介绍和常用算子
RDD(弹性分布式数据集,里面并不存储真正要计算的数据,你对RDD的操作,他会在Driver端转换成Task,下发到Executor计算分散在多台集群上的数据) RDD是一个代理,你对代理进行操作,他 ...
- Spark学习之RDD
RDD概述 什么是RDD RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变.可分区.里面的元素可并行计算的集合 ...
- Spark学习笔记——RDD编程
1.RDD——弹性分布式数据集(Resilient Distributed Dataset) RDD是一个分布式的元素集合,在Spark中,对数据的操作就是创建RDD.转换已有的RDD和调用RDD操作 ...
- Spark学习(2) RDD编程
什么是RDD RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变.可分区.弹性.里面的元素可并行计算的集合 RDD允 ...
随机推荐
- Python之ini配置文件详解
INI介绍 INI是英文"初始化"(initialization)的缩写,被用来对操作系统或特定程序初始化或进行参数设置.由节(section). 键(key).值(value)构 ...
- 【故障公告】龙卷风来袭:突增的并发请求,撑不住的CPU
(上图是数据库连接数监控图) 非常抱歉,今天下午 16:50-17:40 期间,一场龙卷风突袭园子,突增的并发请求狂卷博客站点的 pod,由于风力巨大(70%左右的增量),pod 的 cpu 不堪重负 ...
- php 23种设计模型 - 模板方法模式
模板模式 模板模式准备一个抽象类,将部分逻辑以具体方法以及具体构造形式实现,然后声明一些抽象方法来迫使子类实现剩余的逻辑.不同的子类可以以不同的方式实现这些抽象方法,从而对剩余的逻辑有不同的实现.先制 ...
- 免费云服务器-sanfengyun.com
找到了一个能提供免费云服务器的网站-sanfengyun.com,开通了一个免费云服务器,下载node,解压并安装,用npm装了vue-cli,初始化了一个vue项目,准备继续学习vue,加油.
- python 程序小练习
print("Type integers,each followed by Enter; or just Enter to finish") total = 0 count = 0 ...
- [SWPU2019] NETWORK
[SWPU2019]Network(TTL隐写) 1.题目概述 2.解题过程 文档中的数字代表什么呢?会不会是RGB? 看了一下以前做过的题目,好像并不是 那是什么呢?百度告诉我这是TTL隐写,哇,长 ...
- C++设计模式 - 迭代器模式(Iterator)
数据结构模式 常常有一-些组件在内部具有特定的数据结构,如果让客户程序依赖这些特定的数据结构,将极大地破坏组件的复用.这时候,将这些特定数据结构封装在内部,在外部提供统一的接口,来实现与特定数据结构无 ...
- 字符串的高级应用-char a[100] = "1+2=;3-2=;2*5=;8/4=;" 得到char a[100] ="1+2=3;3-2=1;2*5=10;8/4=2;"
1 #include<stdio.h> 2 #include<string.h> 3 4 int main() 5 { 6 char a[100] = "1+2=;3 ...
- wms、wmts、wfs等地图服务区别
OGC OGC 全称是开放地理空间信息联盟(Open Geospatial Consortium),是一个非盈利的国际标准组织,它制定了数据和服务的一系列标准,GIS厂商按照这个标准进行开发可 ...
- MySQL二进制binlog日志说明以及利用binlog日志恢复数据
MySQL的binlog日志对于mysql数据库来说是十分重要的.在数据丢失的紧急情况下,我们往往会想到用binlog日志功能进行数据恢复(定时全量备份+binlog日志恢复增量数据部分). 一.关于 ...