【Spark】算子

1. mapWith

mapWith(i => i*10)((a,b) => b+2)

(拿到分区号)(a是每次取到的RDD中的元素，b接收i*10的结果)

2. flatMapWith

类似mapWith，区别在于flatMapWith返回的是一个序列

3. mapPartitions

每次取到的是分区号

val rdd1 = sc.parallelize(Array(1,2,3,4,5,6,7),3)

对分区每个元素乘10

rdd1.mapPartitions(_.map(_ * 10))

4. mapPartitionsWithIndex

对RDD中的每个分区进行操作，带有分区号

val rdd1 = sc.parallelize(List(1,2,3,4,5,6,7,8,9),2)

创建一个函数

(index分区号，iter分区中的每个元素)

def func1(index:Int,iter:Iterator[Int]):Iterator[String] ={

ter.toList.map(x=>"[PartID:" + index +",value="+x+"]").iterator

}

rdd1.mapPartitionsWithIndex(func1).collect

结果：

Array(

[PartID:0,value=1], [PartID:0,value=2], [PartID:0,value=3], [PartID:0,value=4],

[PartID:1,value=5], [PartID:1,value=6], [PartID:1,value=7], [PartID:1,value=8], [PartID:1,value=9])

5. aggregate：聚合操作

先对局部进行操作，再对全局进行操作

val rdd1 = sc.parallelize(List(1,2,3,4,5),2)

（初始值）（局部操作，全局操作）

rdd1.aggregate(0)(math.max(_,_),_+_)

6. aggregateByKey

类似aggregate，也是先对局部，再对全局

区别：aggregateByKey操作<key,value>

val pairRDD = sc.parallelize(List( ("cat",2), ("cat", 5), ("mouse", 4),("cat", 12), ("dog", 12), ("mouse", 2)), 2)

把每个笼子中，每种动物最多的个数进行求和

（初始值）（局部操作，全局操作）

pairRDD.aggregateByKey(0)(math.max(_,_),_+_).collect

7. foldByKey:对相同key进行聚合操作

foldByKey(初始值)（对value的操作）

拼接相同key的value字符串

val rdd1 = sc.parallelize(List("dog", "wolf", "cat", "bear"), 2)

val rdd2 = rdd1.map(x => (x.length, x))

val rdd3 = rdd2.foldByKey("")(_+_)

结果：Array[(Int, String)] = Array((4,wolfbear), (3,dogcat))

8. combineByKey 操作的是key-value

val rdd3 = rdd1.combineByKey(x => x + 10, (a: Int, b: Int) => a + b, (m: Int, n: Int) => m + n)

第一个参数:List(_),（分区的每一个元素：它的类型就是整个函数的返回类型（List[String]））

第二参数 (x: List[String], y: String=> x :+ y,)：分区内的局部聚合，x与第一个参数的返回类型一致，y是RDD的每一个value

第三个参数（(m: List[String], n: List[String]) => m ++ n）：全局聚合，类型与第一个参数一致

val rdd7 = rdd6.combineByKey(List(_), (x: List[String], y: String) => x :+ y, (m: List[String], n: List[String]) => m ++ n)

9. coalesce、repartition、partitionBy:重新分区

coalesce：默认不会shuffle，可以重新分更小的分区，不能分更大的分区，如果要shuffle，需要传入参数true

val rdd1 = sc.parallelize(1 to 10, 5)

val rdd2 = rdd1.coalesce(10, true)

rdd2.partitions.length

repartition: 会进行shuffle，任意分区都可以，传入参数是Int数字

rdd1.repartition(8)

partitionBy:会进行shuffle,任意分区都可以，传入参数是分区器

rdd1.partitionBy(new org.apache.spark.HashPartitioner(7))

10. countByKey 计算相同key的元组有多少个

countByValue：计算相同value的元组有多少个

val rdd1 = sc.parallelize(List(("a", 1), ("b", 2), ("b", 2), ("c", 2), ("c", 1)))

rdd1.countByKey

rdd1.countByValue

11. filterByRange ：根据key的范围进行过滤

val rdd1 = sc.parallelize(List(("e", 5), ("f",2),("c", 3), ("d", 4), ("c", 2), ("a", 1)))

取出c到d范围的元组

val rdd2 = rdd1.filterByRange("c", "d")

rdd2.colllect

12. flatMapValues ：对元组的值进行操作并压平

val rdd3 = sc.parallelize(List(("a","1 2"), ("b","3 4")))

rdd3.flatMapValues(_.split(" ")).collect

结果： Array[(String, String)] = Array((a,1), (a,2), (b,3), (b,4))

13. foreachPartition ：对每个分区的操作，返回每个分区的结果

val rdd1 = sc.parallelize(List(1, 2, 3, 4, 5, 6, 7, 8, 9), 3)

rdd1.foreachPartition(x => println(x.reduce(_ + _)))

结果

14. keyBy ：将传入的参数作为元组的key，原RDD元素作为value

val rdd1 = sc.parallelize(List("dog", "salmon", "salmon", "rat", "elephant"), 3)

val rdd2 = rdd1.keyBy(_.length)

rdd2.collect

结果：Array[(Int, String)] = Array((3,dog), (6,salmon), (6,salmon), (3,rat), (8,elephant))

15. keys ：获取RDD的key

values ：获取RDD的value

val rdd1 = sc.parallelize(List("dog", "tiger", "lion", "cat", "panther", "eagle"), 2)

val rdd2 = rdd1.map(x => (x.length, x))

rdd2.keys.collect

rdd2.values.collect

16. collectAsMap ：将集合转化成元组

val rdd = sc.parallelize(List(("a", 1), ("b", 2)))

rdd.collectAsMap

结果：scala.collection.Map[String,Int] = Map(b -> 2, a -> 1)

【Spark】算子的更多相关文章

(转)Spark 算子系列文章
http://lxw1234.com/archives/2015/07/363.htm Spark算子:RDD基本转换操作(1)–map.flagMap.distinct Spark算子:RDD创建操 ...
Spark算子总结及案例
spark算子大致上可分三大类算子: 1.Value数据类型的Transformation算子,这种变换不触发提交作业,针对处理的数据项是Value型的数据. 2.Key-Value数据类型的Tran ...
UserView--第二种方式（避免第一种方式Set饱和），基于Spark算子的java代码实现
UserView--第二种方式(避免第一种方式Set饱和),基于Spark算子的java代码实现测试数据 java代码 package com.hzf.spark.study; import ...
UserView--第一种方式set去重，基于Spark算子的java代码实现
UserView--第一种方式set去重,基于Spark算子的java代码实现测试数据 java代码 package com.hzf.spark.study; import java.util.Ha ...
spark算子之DataFrame和DataSet
前言传统的RDD相对于mapreduce和storm提供了丰富强大的算子.在spark慢慢步入DataFrame到DataSet的今天,在算子的类型基本不变的情况下,这两个数据集提供了更为强大的的功 ...
Spark算子总结（带案例）
Spark算子总结(带案例) spark算子大致上可分三大类算子: 1.Value数据类型的Transformation算子,这种变换不触发提交作业,针对处理的数据项是Value型的数据. 2.Key ...
Spark算子---实战应用
Spark算子实战应用数据集 :http://grouplens.org/datasets/movielens/ MovieLens 1M Datase 相关数据文件 : users.dat --- ...
spark算子集锦
Spark 是大数据领域的一大利器,花时间总结了一下 Spark 常用算子,正所谓温故而知新. Spark 算子按照功能分,可以分成两大类:transform 和 action.Transform 不 ...
Spark算子使用
一.spark的算子分类转换算子和行动算子转换算子:在使用的时候,spark是不会真正执行,直到需要行动算子之后才会执行.在spark中每一个算子在计算之后就会产生一个新的RDD. 二.在编写sp ...
Spark：常用transformation及action，spark算子详解
常用transformation及action介绍,spark算子详解一.常用transformation介绍 1.1 transformation操作实例二.常用action介绍 2.1 act ...

随机推荐

shell 脚本解压war包+备份+tomcat自动关闭+启动
公司的开发环境每次替换war包时候,老是需要重新上传并且手动解压,然后再去重启tomcat.觉得这样子太麻烦了,于是写了一个shell脚本,自动解压+备份+tomcat自动关闭+启动.代码如下: #关 ...
leetcode-word break-ZZ
题目, 反正就是一个string,要不自己在字典里,要不切几刀,切出来的每个词都在字典里 ——————————————————————————————————————————————————————— ...
【NLP_Stanford课堂】语言模型2
一.如何评价语言模型的好坏标准:比起语法不通的.不太可能出现的句子,是否为“真实”或"比较可能出现的”句子分配更高的概率过程:先在训练数据集上训练模型的参数,然后在测试数据集上测试模型的 ...
x64 QWORD Xor shellcode encoder
#!/usr/bin/env python #Filename: Xor_QWORD_x64.py #coding=utf-8 import re import sys import random i ...
python 面向对象：类，作用域
类(Class)和实例(Instance) 定义类是通过class关键字:class Student(object): pass class后面紧接着是类名,即Student接着是(object),表 ...
IntelliJ IDEA下"Cannot resolve symbol 'log'"的解决方法
转自:https://my.oschina.net/greatqing/blog/703989 最近接手了一个Maven项目,IDE使用的是IntelliJ IDEA,导入后可以编译运行.但是输出日志 ...
June 30th 2017 Week 26th Friday
Love me little and love me long. 不求情意浓,但愿情意久. Some people say beautiful young people are the creatur ...
ejb3persistence.jar javax.persistence的注解配置
JPA注解持久化类很方便,需要jar包:ejb3-persistence.jar.我用以下三个类来说明用法. sh原创转载请注明: http://67566894.iteye.com/blog/6 ...
java中的泛型1
1.泛型概述泛型,即“参数化类型”.一提到参数,最熟悉的就是定义方法时有形参,然后调用此方法时传递实参.那么参数化类型怎么理解呢?顾名思义,就是将类型由原来的具体的类型参数化,类似于方法中的变量参数 ...
从windows到linux的换行转换工具dos2unix
同学们也许知道,windows中的文本文件的换行符是"\r\n",而linux中是"\n".由于换行符的不同,所以有的时候会发生一些莫名其妙的状况.至于具体什么 ...

【Spark】算子

【Spark】算子的更多相关文章

随机推荐

热门专题