spark常用算子总结

算子分为value-transform, key-value-transform, action三种。f是输入给算子的函数，比如lambda x: x**2

常用算子：

keys: 取pair rdd的key部分

values: 取pair rdd的value部分

map: f作用于每个元素

flatMap: f作用于每个元素、输出list，然后对list压平

mapValues: f作用于pair rdd的value部分

flatMapValues: f作用于pair rdd的value部分，然后对list压平（即将list各元素分发配对到对应的key后）

mapPartitions: f作用于每个part，输入是iterator

mapParttitionsWithIndex: f作用于每个part，输入是（index，iterator)

glom: 将元素汇集成list

groupBy: f作用于每个元素并构造key，相同key的元素聚合成value_list

groupByKey: pair rdd的相同key的元素shuffle后，value部分聚合成value_list

repartition: 设定每个rdd的part个数，包含shuffle操作（即汇集有相同key的pair），操作前后会改变并行度

coalesce: 设定并降低part数量，不做shuffle操作

repartitionAndSortWithinPartitions: 设定每个rdd的part个数，目标part中按照key部分排序

sortByKey: 对pair rdd的所有元素shuffle后按key部分排序

cogroup: 两个pair rdd shuffle后相同key的元素聚合成value_iterator_list

reduce: f遍历元素list，须满足交换律和结合律

reduceByKey: pair rdd shuffle后相同key的元素聚合成value_list，f遍历value_list

filter: f作用于每个元素输出bool值，满足条件的元素会保留

collect: 汇集所有的元素

take：取数据集前n个元素

union: 合并两个rdd的元素集合（不去重）

intersection: 两个rdd的元素集合取交集

join: pair rdd shuffle后相同key的value部分inner join，即(k, v1) join (k, v2) -> (k, (v1, v2))

distinct: 遍历元素list去重

subtract: 两个rdd的元素集合取差集

count: 计数元素个数

countByKey: 计数有相同key的value的个数，返回hashmap结构

saveAsTextFile: rdd转化为文本文件并保存

foreach: f作用于每个元素，常用于print

broadcast: 将变量分发/广播到各个任务上，书写".value"取其值

经验：

broadcast变量时妥善使用数据结构，比如set类型查找很快。相对于用list任务运行快很多。

参考资料：

https://spark.apache.org/docs/latest/rdd-programming-guide.html

https://spark.apache.org/docs/latest/api/python/pyspark.html#pyspark.RDD

http://www.huaxiaozhuan.com/%E5%B7%A5%E5%85%B7/spark/chapters/02_rdd.html

spark sql: https://spark.apache.org/docs/latest/sql-programming-guide.html

spark常用算子总结的更多相关文章

Spark常用算子-KeyValue数据类型的算子
package com.test; import java.util.ArrayList; import java.util.List; import java.util.Map; import or ...
Spark常用算子-value数据类型的算子
package com.test; import java.util.ArrayList; import java.util.Arrays; import java.util.Iterator; im ...
java实现spark常用算子之Union
import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.a ...
java实现spark常用算子之TakeSample
import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.a ...
java实现spark常用算子之SortByKey
import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spa ...
java实现spark常用算子之Sample
import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.a ...
java实现spark常用算子之SaveAsTextFile
import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.a ...
java实现spark常用算子之Repartitions
import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.a ...
java实现spark常用算子之Reduce
import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.a ...

随机推荐

HTML中关于url、scr、href的区别
URL是什么 URL:Uniform Resource Locators(统一资源定位器)的简写,Web浏览器通过URL从Web服务器请求页面. url不是属性,src和href是属性,src用于替换 ...
形式化验证工具（PAT）羊车门代码学习
首先介绍一下PAT工具,下图是PAT工具的图标 PAT工具全称是Process Analysis Toolkit,可以做一些简单的验证. 今天我们分析一下例子里面的Monty Hall Problem ...
《Head First Servlets & JSP》-6-会话管理-listener etc. demo
工程结构上下文参数示例示例程序展示了如何从上下文读取参数,并在上下文监听器中生成属性对象和在上下文中设置属性. 建立一个简单的JavaBean对象作为属性:Dog.java package com ...
DjVu转PDG的方法与步骤
作者:马健邮箱:stronghorse_mj@hotmail.com发布:2008.08.03更新:2008.08.24 补充说明:此文成文较早,当时PDG浏览器只支持纯正PDG,不支持名为PDG,实 ...
ABAP开发常见任务
在ABAP开发中最主要的工作: 1 报表的开发主要使用到数据库读取 ALV LIST等技术: 2 单据的打印主要使用到数据库读取.SmartFirms.Form等技术: 3 数据的上载主要使用 ...
HashMap resize导致死循环
原文链接:https://blog.csdn.net/hll174/article/details/50915346 问题的症状从前我们的Java代码因为一些原因使用了HashMap这个东西,但是当 ...
14.Diameter of Binary Tree（二叉树的直径）
Level: Easy 题目描述: Given a binary tree, you need to compute the length of the diameter of the tree. ...
【ABP开发】：asp.net core 中使用mysql
EntityFrameworkCore项目--Nuget包管理,卸载包: Microsoft.EntityFrameworkCore.SqlServer: EntityFrameworkCore项目和 ...
Codeforces Round #532 (Div. 2)- C（公式计算）
NN is an experienced internet user and that means he spends a lot of time on the social media. Once ...
N - 畅通工程再续（最小生成树）
相信大家都听说一个"百岛湖"的地方吧,百岛湖的居民生活在不同的小岛中,当他们想去其他的小岛时都要通过划小船来实现.现在政府决定大力发展百岛湖,发展首先要解决的问题当然是交通问题,政 ...

spark常用算子总结

spark常用算子总结的更多相关文章

随机推荐

热门专题