【spark】RDD操作

RDD操作分为转换操作和行动操作。

对于RDD而言，每一次的转化操作都会产生不同的RDD，供一个操作使用。

我们每次转换得到的RDD是惰性求值的

也就是说，整个转换过程并不是会真正的去计算，而是只记录了转换的轨迹。

当遇到行动操作的时候，才会发生真正的计算，从DAG图的源头开始进行“从头到尾”的计算。

常见的操作

操作类型	函数名	作用
转化操作	map()	参数是函数，函数应用于RDD每一个元素，返回值是新的RDD
	flatMap()	参数是函数，函数应用于RDD每一个元素，将元素数据进行拆分，变成迭代器，返回值是新的RDD
	filter()	参数是函数，函数会过滤掉不符合条件的元素，返回值是新的RDD
	distinct()	没有参数，将RDD里的元素进行去重操作
	union()	参数是RDD，生成包含两个RDD所有元素的新RDD
	intersection()	参数是RDD，求出两个RDD的共同元素
	subtract()	参数是RDD，将原RDD里和参数RDD里相同的元素去掉
	cartesian()	参数是RDD，求两个RDD的笛卡儿积
行动操作	collect()	返回RDD所有元素
	count()	RDD里元素个数
	countByValue()	各元素在RDD中出现次数
	reduce()	并行整合所有RDD数据，例如求和操作
	fold(0)(func)	和reduce功能一样，不过fold带有初始值
	aggregate(0)(seqOp,combop)	和reduce功能一样，但是返回的RDD数据类型和原RDD不一样
	foreach(func)	对RDD每个元素都是使用特定函数

除此之外我们还用到过的转换操作还有

1.groupByKey()：应用于（K,V）键值对的数据集，返回一个新的（K，Iterable）形式的数据集

2.reduceByKey(func)：应用于（K,V）键值对的数据集，返回一个新的（K，V）形式的数据集

其中每个值是将每个Key传入到func中进行聚合。

除此之外我们还用到过的行动操作还有

1.first()：返回数据集的第一个元素

2.take(n)：以数组形式返回数据集的前n个元素。

示例

转化操作

val rddInt:RDD[Int] = sc.makeRDD(List(1,2,3,4,5,6,2,5,1)

val rddStr:RDD[String] = sc.parallelize(Array("a","b","c","d","b","a"), 1)

val rddFile:RDD[String] = sc.textFile(path, 1)

val rdd01:RDD[Int] = sc.makeRDD(List(1,3,5,3))

val rdd02:RDD[Int] = sc.makeRDD(List(2,4,5,1))

/* map操作 */

    println("======map操作======")

    println(rddInt.map(x => x + 1).collect().mkString(","))

    println("======map操作======")

/* filter操作 */

    println("======filter操作======")

    println(rddInt.filter(x => x > 4).collect().mkString(","))

    println("======filter操作======")

/* flatMap操作 */

    println("======flatMap操作======")

    println(rddFile.flatMap { x => x.split(",") }.first())

    println("======flatMap操作======")

/* distinct去重操作 */

    println("======distinct去重======")

    println(rddInt.distinct().collect().mkString(","))

    println(rddStr.distinct().collect().mkString(","))

    println("======distinct去重======")

/* union操作 */

    println("======union操作======")

    println(rdd01.union(rdd02).collect().mkString(","))

    println("======union操作======")

/* intersection操作 */

    println("======intersection操作======")

    println(rdd01.intersection(rdd02).collect().mkString(","))

    println("======intersection操作======")

/* subtract操作 */

    println("======subtract操作======")

    println(rdd01.subtract(rdd02).collect().mkString(","))

    println("======subtract操作======")

/* cartesian操作 */

    println("======cartesian操作======")

    println(rdd01.cartesian(rdd02).collect().mkString(","))

    println("======cartesian操作======")

行动操作

val rddInt:RDD[Int] = sc.makeRDD(List(1,2,3,4,5,6,2,5,1))

val rddStr:RDD[String] = sc.parallelize(Array("a","b","c","d","b","a"), 1)

/* count操作 */

    println("======count操作======")

    println(rddInt.count())

    println("======count操作======")

/* countByValue操作 */

    println("======countByValue操作======")

    println(rddInt.countByValue())

    println("======countByValue操作======")

/* reduce操作 */

    println("======countByValue操作======")

    println(rddInt.reduce((x, y) => x + y))

    println("======countByValue操作======")

/* fold操作 */

    println("======fold操作======")

    println(rddInt.fold(0)((x, y) => x + y))

    println("======fold操作======")

/* aggregate操作 */

    println("======aggregate操作======")

    val res: (Int, Int) = rddInt.aggregate((0, 0))((x, y) => (x._1 + x._2, y),

                                                               (x, y) => (x._1 + x._2, y._1 + y._2))

    println(res._1 + "," + res._2)

    println("======aggregate操作======")

/* foreach操作 */

    println("======foeach操作======")

    println(rddStr.foreach { x => println(x) })

    println("======foeach操作======")

【spark】RDD操作的更多相关文章

Spark RDD操作(1)
https://www.zybuluo.com/jewes/note/35032 RDD是什么? RDD是Spark中的抽象数据结构类型,任何数据在Spark中都被表示为RDD.从编程的角度来看,RD ...
Spark RDD 操作
1. Spark RDD 创建操作 1.1 数据集合 parallelize 可以创建一个能够并行操作的RDD.其函数定义如下: ) scala> sc.defaultParallelism ...
spark RDD操作的底层实现原理
RDD操作闭包外部变量原则 RDD相关操作都需要传入自定义闭包函数(closure),如果这个函数需要访问外部变量,那么需要遵循一定的规则,否则会抛出运行时异常.闭包函数传入到节点时,需要经过下面的步 ...
Spark RDD操作之Map系算子
在linux系统上安装solrCloud 1.依赖: JRE solr7.3 需要 java1.8 独立的zookeeper服务 ,zookeeper安装请参考: http://zookeeper.a ...
Spark学习（一）--RDD操作
标签(空格分隔): 学习笔记 Spark编程模型的两种抽象:RDD(Resilient Distributed Dataset)和两种共享变量(支持并行计算的广播变量和累加器). RDD RDD是一种 ...
Spark RDD/Core 编程 API入门系列之动手实战和调试Spark文件操作、动手实战操作搜狗日志文件、搜狗日志文件深入实战（二）
1.动手实战和调试Spark文件操作这里,我以指定executor-memory参数的方式,启动spark-shell. 启动hadoop集群 spark@SparkSingleNode:/usr/ ...
Spark编程模型及RDD操作
转载自:http://blog.csdn.net/liuwenbo0920/article/details/45243775 1. Spark中的基本概念在Spark中,有下面的基本概念.Appli ...
Spark 键值对RDD操作
键值对的RDD操作与基本RDD操作一样,只是操作的元素由基本类型改为二元组. 概述键值对RDD是Spark操作中最常用的RDD,它是很多程序的构成要素,因为他们提供了并行操作各个键或跨界点重新进行数 ...
Spark RDD、DataFrame原理及操作详解
RDD是什么? RDD (resilientdistributed dataset),指的是一个只读的,可分区的分布式数据集,这个数据集的全部或部分可以缓存在内存中,在多次计算间重用. RDD内部可以 ...
spark RDD 常见操作
fold 操作区别与 co 1.mapValus 2.flatMapValues 3.comineByKey 4.foldByKey 5.reduceByKey 6.groupByKey 7.so ...

随机推荐

流畅的python 字典和集合
介绍 dict 类型不但在各种程序里广泛使用,它也是 Python 语言的基石.模块的命名空间.实例的属性和函数的关键字参数中都可以看到字典的身影.跟它有关的内置函数都在 __builtins__._ ...
我的Android进阶之旅------>解决Jackson等第三方转换Json的开发包在开启混淆后转换的实体类数据都是null的bug
1.错误描述今天测试人员提了一个bug,说使用我们的app出现了闪退的bug,后来通过debug断点调试,发现我们的app转换服务器发送过来的json数据后,都是为null.而之前已经提测快一个月的 ...
ZeroMQ作者于昨天下午宣布选择安乐死
… printf("goodbye, world !");
Linux环境安装配置maven
按照下面命令执行即可 1.下载apache-maven-3.5.3-bin.tar.gz 并上传到服务器上提取地址:https://pan.baidu.com/s/11nxZp84lmonRBCR ...
Linux服务器内存cache清理
发现cache中占用大量内存,无free内存可用使用如下命令清理: syncsysctl -w vm.drop_caches=1 转自:http://blog.csdn.net/sky_qing/a ...
DataNode启动不成功——java.net.BindException: Port in use: localhost:0 Caused by: java.net.BindException: Cannot assign requested address解决办法
爱折腾的人总是会出线各种奇怪的问题.记得之前听一位大师讲过,我们不能踩完前进路上的所有坑前进,而应该学会怎样避开前进路上的坑,踩得坑越多,可能你的经验越丰富,但是付出的时间代价可能不是经验能换来的.我 ...
E-R图和数据库的设计
数据库设计: 原则:如果属性有了多个字段,可以当实体.如果只有一个字段,只能当属性(比如实体属性种类) 1.设计E-R图实体:矩形关系:菱形属性:椭圆(可省) 2.关系的类型一对一一对多多 ...
SQL生成一串随机数
SELECT RIGHT (CONVERT(VARCHAR(20),CONVERT(DECIMAL(20,15),rand())),15) AS c_random_number
Web开发相关笔记
1.MySQL命令行下执行.sql脚本详解http://database.51cto.com/art/201107/277687.htm 在可视化工具里导出.sql脚本 --> 放命令行里运行 ...
Django 中间件简介
Django 中间件简介 django 中的中间件(middleware),在django中,中间件其实就是一个类,在请求到来和结束后,django会根据自己的规则在合适的时机执行中间件中相应的方法. ...

【spark】RDD操作

【spark】RDD操作的更多相关文章

随机推荐

热门专题