常见的transformation算子

RDD：RDD分区数，若从HDFS创建RDD，RDD的分区就是和文件块一一对应，若是集合并行化形式创建，RDD分区数可以指定，一般默认值是CPU的核数。

task：task数量就是和分区数量对应。

这个全：https://www.cnblogs.com/frankdeng/p/9301672.html

一、transformation算子：

（1）map(func)：将函数应用于RDD中的每一个元素，将返回值构成新的RDD。输入分区与输出分区一对一，即：有多少个输入分区，就有多少个输出分区。

rdd.map(x=>x+1)

如：{1，2，3，3} 结果为 {2，3，4，4}

hadoop fs -cat /tmp/lxw1234/1.txt

hello world

hello spark

hello hive

//读取HDFS文件到RDD
scala> var data = sc.textFile("/tmp/lxw1234/1.txt")
data: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[1] at textFile at :21

//使用map算子

scala> var mapresult = data.map(line => line.split("\\s+"))

mapresult: org.apache.spark.rdd.RDD[Array[String]] = MapPartitionsRDD[2] at map at :23

//结果

scala> mapresult.collect

res0: Array[Array[String]] = Array(Array(hello, world), Array(hello, spark), Array(hello, hive))

（2）flatMap（func）：比map多一步合并操作，首先将数组元素进行映射，然后合并压平所有的数组。

//使用flatMap算子

scala> var flatmapresult = data.flatMap(line => line.split("\\s+"))

flatmapresult: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[3] at flatMap at :23

//结果

scala> flatmapresult.collect

res1: Array[String] = Array(hello, world, hello, spark, hello, hive)

参考博客：https://www.cnblogs.com/devin-ou/p/8028305.html

（3）mapPartitions(func)：函数中传入的参数是迭代器，迭代器里面保存的是一个分区里面的数据。

/**

* makeRDD方法的第一个参数代表的是RDD中的 元素

* 第二个参数：RDD的分区数

* rdd[Int]

*/

val rdd = sc.makeRDD(1 to 10,3)

/**

* mapPartitions这个算子遍历的单位是partition

* 会将一个partition的数据量全部加载到一个集合里面

*/

val mapPartitonsRDD = rdd.mapPartitions(iterator=>{

val list = new ListBuffer[Int]()

//创建一个数据库连接

while(iterator.hasNext){

val num = iterator.next()

list.+=(num+100)

}

//批量插入数据库

list.iterator

}, false)

/**

* 想要执行，必须有action类的算子

* collect算子会将集群中计算的结果回收到Driver端，慎用

*/

val resultArr = mapPartitonsRDD.collect()

resultArr.foreach { println }

map和mapPartition的异同：

　　mapPartition function一次处理一个分区的数据，性能比较高；

　　map的function一次只处理一条数据。

　　如果在map过程中需要频繁创建额外的对象(例如将rdd中的数据通过jdbc写入数据库,map需要为每个元素创建一个链接而mapPartition为每个partition创建一个链接),则mapPartitions效率比map高的多。

SparkSql或DataFrame默认会对程序进行mapPartition的优化。

参考博客：https://blog.csdn.net/wuxintdrh/article/details/80278479

（4）distinct：对RDD中的元素进行去重操作。

scala> data.flatMap(line => line.split("\\s+")).collect

res61: Array[String] = Array(hello, world, hello, spark, hello, hive, hi, spark)

scala> data.flatMap(line => line.split("\\s+")).distinct.collect

res62: Array[String] = Array(hive, hello, world, spark, hi)

（5）reduceByKey（func，[numTask]）：找到相同的key，对其进行聚合，聚合的规则由func指定。

reduce任务的数量可以由numTask指定

goodsSaleRDD.reduceByKey((x,y) => x+y)

参考博客：https://www.jianshu.com/p/af175e66ce99

（6）groupByKey（）：对相同的key进行分组。

（7）aggregateByKey(zeroValue: U, numPartitions: Int)(seqOp: (U, V) => U, combOp: (U, U) => U)

第一个参数代表着初始值

第二个参数是中间聚合，在每个分区内部按照key执行聚合操作。这个分两步，第一步先将每个value和初始值作为函数参数进行计算，返回的结果作为新的kv对。然后在对结果再带入到函数中计算。

第三个参数是最终聚合，对中间聚合结果进行最终聚合。

例如：一个RDD有两个分区，

patition1：（1,1）（1,2）（2,1）

patition2：（2,3）（2,4）（1,7）

首先，在每个patition中将value和初始值三带入到seqFunc函数中，得到中间结果kv：

patition1：（1,3）（1,3）（2,3）

patition2：（2,3）（2,4）（1,7）

再将中间结果kv带入到seqFunc函数中，按照key进行聚合

patition1：（1,3）（2,3）

patition2：（2,4）（1,7）

最后，进行整体聚合，将上一步结果带入combFunc

（1,10）（2,7）

def seqFunc(a,b):

    print "seqFunc:%s,%s" %(a,b)

    return max(a,b) #取最大值

def combFunc(a,b):

    print "combFunc:%s,%s" %(a ,b)

    return a + b #累加起来

'''

    aggregateByKey这个算子内部肯定有分组

'''

aggregateRDD = rdd.aggregateByKey(3, seqFunc, combFunc)

参考博客：https://blog.csdn.net/qq_35440040/article/details/82691794 这个写的挺乱，但有地方可以参考

（8）combineByKey ( createCombiner: V=>C, mergeValue: (C, V) =>C, mergeCombiners: (C,C) =>C ) :

主要分为三步，第一步，对value进行初始化处理；第二步，在分区内部对（key，value）进行处理，第三步，所有分区间对（key，value）进行处理。

https://www.jianshu.com/p/b77a6294f31c

参考博客：https://www.jianshu.com/p/b77a6294f31c

（9）sortBy（）：排序操作

常见的transformation算子的更多相关文章

RDD之四：Value型Transformation算子
处理数据类型为Value型的Transformation算子可以根据RDD变换算子的输入分区与输出分区关系分为以下几种类型: 1)输入分区与输出分区一对一型 2)输入分区与输出分区多对一型 3)输入分 ...
常用Transformation算子
map 产生的键值对是tupple, split分隔出来的是数组一.常用Transformation算子 (map .flatMap .filter .groupByKey .reduc ...
【Spark】RDD操作具体解释2——值型Transformation算子
处理数据类型为Value型的Transformation算子能够依据RDD变换算子的输入分区与输出分区关系分为下面几种类型: 1)输入分区与输出分区一对一型 2)输入分区与输出分区多对一型 3)输入分 ...
Spark学习进度-Transformation算子
Transformation算子 intersection 交集 /* 交集 */ @Test def intersection(): Unit ={ val rdd1=sc.parallelize( ...
大数据学习day24-------spark07-----1. sortBy是Transformation算子，为什么会触发Action 2. SparkSQL 3. DataFrame的创建 4. DSL风格API语法 5 两种风格（SQL、DSL）计算workcount案例
1. sortBy是Transformation算子,为什么会触发Action sortBy需要对数据进行全局排序,其需要用到RangePartitioner,而在创建RangePartitioner ...
大数据学习day19-----spark02-------0 零碎知识点（分区，分区和分区器的区别） 1. RDD的使用（RDD的概念，特点，创建rdd的方式以及常见rdd的算子） 2.Spark中的一些重要概念
0. 零碎概念 (1) 这个有点疑惑,有可能是错误的. (2) 此处就算地址写错了也不会报错,因为此操作只是读取数据的操作(元数据),表示从此地址读取数据但并没有进行读取数据的操作 (3)分区(有时间 ...
常见的transformation 和 Action
常见transformation map 将RDD中的每个元素传入自定义函数,获取一个新的元素,然后用新的元素组成新的RDD filter 对RDD中每个元素进行判断,如果返回true则保留,返回fa ...
RDD之五：Key-Value型Transformation算子
Transformation处理的数据为Key-Value形式的算子大致可以分为:输入分区与输出分区一对一.聚集.连接操作. 输入分区与输出分区一对一 mapValues mapValues:针对(K ...
【Spark】RDD操作具体解释3——键值型Transformation算子
Transformation处理的数据为Key-Value形式的算子大致能够分为:输入分区与输出分区一对一.聚集.连接操作. 输入分区与输出分区一对一 mapValues mapValues:针对(K ...

随机推荐

资源对象的池化， java极简实现，close资源时，自动回收
https://www.cnblogs.com/piepie/p/10498953.html 在java程序中对于资源,例如数据库连接,这类不能并行共享的资源对象,一般采用资源池的方式进行管理. 资源 ...
java的线程池的使用
1.线程池的创建 1.首先创建一个类,然后实现Runnable接口 public class ExectorTest implements Runnable {} 2.首先声明一个线程池的全局变量 p ...
Linux环境下进程的CPU占用率
阿里云服务器网站:https://promotion.aliyun.com/ntms/yunparter/invite.html?userCode=qqwovx6h 文字来源:http://www.s ...
【题解】Luogu P5338 [TJOI2019]甲苯先生的滚榜
原题传送门这题明显可以平衡树直接大力整,所以我要说一下线段树+树状数组的做法实际线段树+树状数组的做法也很暴力我们先用树状数组维护每个ac数量有多少个队伍.这样就能快速求出有多少队伍ac数比现在 ...
【解决方案】ArcGIS导入要素集后没反应
内容源自:ArcGIS10.2基础教程(丁华) 书上要求: 1.在“练习”文件夹中新建一个名为“沈阳”的个人地理数据库和名为“shenyang”的要素集,设置地理坐标为“Xi'an 1980”,高程坐 ...
Asp.net MVC 之ActionResult
ActionResult 派生出以下子类: ViewResult 返回一个网页视图 PartialViewResult 返回一个网页视图,但不适用布局页. ContentResult 返回一段字符串文 ...
Linux系统快速入门方法
相信看到这篇文章的你一定是想要学习Linux,或者已经在学习Linux的人了,那我们就可以一起探讨一下,学习Linux如何快速入门呢? 首先,希望大家弄清楚自己为什么要学习Linux,有的人是因为兴趣 ...
VUE过滤器基础回顾5
过滤器是一种在模板中处理数据的便捷方式,特别适合对字符串和数组进行简易显示 <div id="app"> <p>商品1花费{{oneCost | froma ...
基于MUI框架+HTML5PLUS 开发 iOS和Android 应用程序(APP)
目录事前准备创建项目利用MUI写一个简单的页面关于文件打包事前准备 # 软件 HBuilder X Web开发IDE 下载地址:https://www.dcloud.io/hbuilderx ...
Appscan漏洞之加密会话（SSL）Cookie 中缺少 Secure 属性
近期 Appscan扫描出漏洞加密会话(SSL)Cookie 中缺少 Secure 属性,已做修复,现进行总结如下: 1.1.攻击原理任何以明文形式发送到服务器的 cookie.会话令牌或用户凭证 ...

常见的transformation算子

常见的transformation算子的更多相关文章

随机推荐

热门专题