Spark之常用操作

-- 筛选

val rdd = sc.parallelize(List("ABC","BCD","DEF"))

val filtered = rdd.filter(_.contains("C"))

filtered.collect()

Result:

Array[String] = Array(ABC, BCD)

-- 相乘

val rdd=sc.parallelize(List(1,2,3,4,5))

val times2 = rdd.map(_*2)

times2.collect()

Result:

Array[Int] = Array(2, 4, 6, 8, 10)

-- 分割

val rdd=sc.parallelize(List("Spark is awesome","It is fun"))

val fm=rdd.flatMap(str=>str.split(" "))

fm.collect()

Result:

Array[String] = Array(Spark, is, awesome, It, is, fun)

-- 频数

val word1=fm.map(word=>(word,1))

val wrdCnt=word1.reduceByKey(_+_)

wrdCnt.collect()

Result:

Array[(String, Int)] = Array((is,2), (It,1), (awesome,1), (Spark,1), (fun,1))

-- 交换

val cntWrd = wrdCnt.map{case (word, count) => (count, word)}

cntWrd.groupByKey().collect()

Result:

Array[(Int, Iterable[String])] = Array((1,ArrayBuffer(It, awesome, Spark, fun)), (2,ArrayBuffer(is)))

-- 排重

fm.distinct().collect()

Result:

Array[String] = Array(is, It, awesome, Spark, fun)

-- 并集

val rdd1=sc.parallelize(List('A','B'))

val rdd2=sc.parallelize(List('B','C'))

rdd1.union(rdd2).collect()

-- 交集

rdd1.intersection(rdd2).collect()

-- 笛卡尔积

rdd1.cartesian(rdd2).collect()

-- 相减

rdd1.subtract(rdd2).collect()

-- 连接

val personFruit = sc.parallelize(Seq(("Andy", "Apple"), ("Bob", "Banana"), ("Charlie", "Cherry"), ("Andy","Apricot")))

val personSE = sc.parallelize(Seq(("Andy", "Google"), ("Bob", "Bing"), ("Charlie", "Yahoo"), ("Bob","AltaVista")))

personFruit.join(personSE).collect()

Result:

Array[(String, (String, String))] = Array((Andy,(Apple,Google)), (Andy,(Apricot,Google)), (Charlie,(Cherry,Yahoo)), (Bob,(Banana,Bing)), (Bob,(Banana,AltaVista)))

-- 计数

val rdd = sc.parallelize(list('A','B','c'))

rdd.count()

Result:

long = 3

-- 展示数组

val rdd = sc.parallelize(list('A','B','c'))

rdd.collect()

Result:

Array[char] = Array(A, B, c)

-- 求和

val rdd = sc.parallelize(list(1,2,3,4))

rdd.reduce(_+_)

Result:

Int = 10

-- 截取

val rdd = sc.parallelize(list(1,2,3,4))

rdd.take(2)

Result:

Array[Int] = Array(1, 2)

-- 分别格式化

val rdd = sc.parallelize(list(1,2,3,4))

rdd.foreach(x=>println("%s*10=%s".format(x,x*10))) Result:

1*10=10 4*10=40 3*10=30 2*10=20

val rdd = sc.parallelize(list(1,2,3,4))

-- 首项

rdd.first()

Result:

Int = 1

-- 另存为

val hamlet = sc.textFile("/users/akuntamukkala/temp/gutenburg.txt")

-- 针对两个pair RDD的转化操作（rdd = {(1, 2), (3, 4), (3, 6)}  other = {(3, 9)}）

-- subtractByKey 删掉RDD 中键与other RDD 中的键相同的元素

rdd.subtractByKey(other) {(1, 2)}

-- join 对两个RDD 进行内连接

rdd.join(other) {(3, (4, 9)), (3,(6, 9))}

-- rightOuterJoin 对两个RDD 进行连接操作，确保第一个RDD 的键必须存在（右外连接）

rdd.rightOuterJoin(other) {(3,(Some(4),9)),(3,(Some(6),9))}

-- leftOuterJoin 对两个RDD 进行连接操作，确保第二个RDD 的键必须存在（左外连接）

rdd.leftOuterJoin(other) {(1,(2,None)), (3,(4,Some(9))), (3,(6,Some(9)))}

-- cogroup 将两个RDD 中拥有相同键的数据分组到一起

rdd.cogroup(other) {(1,([],[])), (3,([4, 6],[]))}

-- 返回RDD 中的所有元素
rdd.collect() {1, 2, 3, 3}

-- RDD 中的元素个数
rdd.count() 4

-- 各元素在RDD 中出现的次数
rdd.countByValue() {(1, 1),(2, 1),(3, 2)}

-- 从RDD 中返回num 个元素
rdd.take(2) {1, 2} top(num) 

-- 从RDD 中返回最前面的num个元素
rdd.top(2) {3, 3} 

-- 从RDD 中按照提供的顺序返回最前面的num 个元素
rdd.takeOrdered(2)(myOrdering) {3, 3} 

-- 从RDD 中返回任意一些元素
rdd.takeSample(false, 1) 

-- 并行整合RDD 中所有数据（例如sum）
rdd.reduce((x, y) => x + y) 9 

-- 和reduce() 一样， 但是需要提供初始值
rdd.fold(0)((x, y) => x + y) 9 

-- 和reduce() 相似， 但是通常返回不同类型的函数 
rdd.aggregate((0, 0)) 
((x, y) =>(x._1 + y, x._2 + 1), 
(x, y) =>(x._1 + y._1, x._2 + y._2)) 
(9,4) 
-- 对RDD 中的每个元素使用给定的函数
rdd.foreach(func)

Spark之常用操作的更多相关文章

spark RDD 常见操作
fold 操作区别与 co 1.mapValus 2.flatMapValues 3.comineByKey 4.foldByKey 5.reduceByKey 6.groupByKey 7.so ...
Spark Dataset DataFrame 操作
Spark Dataset DataFrame 操作相关博文参考 sparksql中dataframe的用法一.Spark2 Dataset DataFrame空值null,NaN判断和处理 1. ...
【三】用Markdown写blog的常用操作
本系列有五篇:分别是 [一]Ubuntu14.04+Jekyll+Github Pages搭建静态博客:主要是安装方面 [二]jekyll 的使用 :主要是jekyll的配置 [三]Markdown+ ...
php模拟数据库常用操作效果
test.php <?php header("Content-type:text/html;charset='utf8'"); error_reporting(E_ALL); ...
Mac OS X常用操作入门指南
前两天入手一个Macbook air,在装软件过程中摸索了一些基本操作,现就常用操作进行总结, 1关于触控板: 按下(不区分左右) ＝鼠标左键 control+按下 ...
mysql常用操作语句
mysql常用操作语句 1.mysql -u root -p 2.mysql -h localhost -u root -p database_name 2.列出数据库: 1.show datab ...
nodejs配置及cmd常用操作
一.cmd常用操作 1.返回根目录cd\ 2.返回上层目录cd .. 3.查找当前目录下的所有文件dir 4.查找下层目录cd window 二.nodejs配置 Node.js安装包及源码下载地址为 ...
Oracle常用操作——创建表空间、临时表空间、创建表分区、创建索引、锁表处理
摘要:Oracle数据库的库表常用操作:创建与添加表空间.临时表空间.创建表分区.创建索引.锁表处理 1.表空间 ■ 详细查看表空间使用状况,包括总大小,使用空间,使用率,剩余空间 --详细查看表空 ...
python 异常处理、文件常用操作
异常处理 http://www.jb51.net/article/95033.htm 文件常用操作 http://www.jb51.net/article/92946.htm

随机推荐

如何使用Delphi设计强大的服务器程序
现在网络的流行,使得服务器程序得到了广泛的应用,那么我们使用Delphi如何设计出强壮的服务器呢? 有人说,如果要设计服务器的话,一定要使用VC来设计,其实这个人说的有一定道理,因为如果你要使用Del ...
Clustering Devices In An Internet Of Things
Clustering devices in an Internet of Things ('IoT'), including: receiving, by a device clustering mo ...
CUDA中的常量内存__constant__
GPU包含数百个数学计算单元,具有强大的处理运算能力,可以强大到计算速率高于输入数据的速率,即充分利用带宽,满负荷向GPU传输数据还不够它计算的.CUDA C除全局内存和共享内存外,还支持常量内存,常 ...
C# WPF MVVM QQ密码管家项目（8，完结篇：自动输入QQ号、密码）
原文:C# WPF MVVM QQ密码管家项目(8,完结篇:自动输入QQ号.密码) 目录: 1,界面设计 2,数据模型的建立与数据绑定 3,添加QQ数据 4,修改QQ数据 5,删除QQ数据 6,密码选 ...
uwp - 解决使用EntityFramework时报错“unable to load dll 'sqlite3':the specified module could not be found”
在使用uwp的ef过程中碰到一万个问题快折腾死我了,好在最后终于解决掉所有问题,但愿如此,因为在这之前先后发生不同的报错,不知道后面还会碰到新的问题不. 其中一个问题是这样的,生成能正常生成,但是启动 ...
C# ?和??使用讲解
原文:C# ?和??使用讲解场景1:使用?定义可空类型众所周知,C#中的值类型是不可以为null的,如果必须为null,则需要将变量定义为可空类型,如下所示: int? age = null; 场 ...
angular.js分页代码的实例
对于大多数web应用来说显示项目列表是一种很常见的任务.通常情况下,我们的数据会比较多,无法很好地显示在单个页面中.在这种情况下,我们需要把数据以页的方式来展示,同时带有转到上一页和下一页的功能.现在 ...
【Quartz】定时器初步实验（一）
原文:[Quartz]定时器初步实验(一) 以前就了解了Quartz这个定时框架,但是一直没有认真的去关注他,最近忽然看到已经更新到3.0.4支持异步操作了所以就写个简单的小例子看看好用不. ...
String转Color
原文:String转Color 很硬性的转换,谁知道更好的忘不吝赐教啊. /// <summary> /// String To Color /// </summary> // ...
Form submit
方法1:使用form onsubmit标签 return XXX()方法  <form id="formid" name=" ...

Spark之常用操作

Spark之常用操作的更多相关文章

随机推荐

热门专题