Spark RDD的fold和aggregate为什么是两个API？为什么不是一个foldLeft？

欢迎关注我的新博客地址：http://cuipengfei.me/blog/2014/10/31/spark-fold-aggregate-why-not-foldleft/

大家都知道Scala标准库的List有一个用来做聚合操作的foldLeft方法。

比方我定义一个公司类：

1	`case class Company(name:String, children:Seq[Company]=Nil)`

它有名字和子公司。然后定义几个公司：

1	`val companies = List(Company("B"),Company("A"),Company("T"))`

三家大公司，然后呢，我如果有一家超牛逼的公司把它们给合并了：

1	`companies.foldLeft(Company("King"))((king,company)=>Company(name=king.name,king.children:+company))`

这个运行的结果是这种：

1

2

scala> companies.foldLeft(Company("King"))((king,company)=>Company(name=king.name,king.children:+company))

res6: Company = Company(King,List(Company(B,List()), Company(A,List()), Company(T,List())))

可见foldLeft的结果是一家包括了BAT三大家得新公司。

由List[Company]聚合出一个新的Company，这样的属于foldLeft的同构聚合操作。

同一时候，foldLeft也能够做异构的聚合操作：

1	`companies.foldLeft("")((acc,company)=>acc+company.name)`

它的运行结果是这种：

1 2	`scala> companies.foldLeft("")((acc,company)=>acc+company.name) res7: String = BAT`

由List[Company]聚合出一个String。

这种API感觉非常方便。仅仅要是聚合。不管同构异构。都能够用它来做。

近期接触了Spark，当中的RDD是做分布式计算时最经常使用的一个类。

RDD有一个叫做fold的API，它和foldLeft的签名非常像，唯一差别是它仅仅能做同构聚合操作。

也就是说假设你有一个RDD[X]，通过fold，你仅仅能构造出一个X。

假设我想通过一个RDD[X]构造一个Y出来呢？

那就得用aggregate这个API了，aggregate的签名是这种：

1	`aggregate[U](zeroValue: U)(seqOp: (U, T) ⇒ U, combOp: (U, U) ⇒ U)(implicit arg0: ClassTag[U]): U`

它比fold和foldLeft多须要一个combOp做參数。

这让我非常不解，同构和异构的API干嘛非得拆成两个呢？怎么不能学Scala的标准库，把它做成类似foldLeft的样子呢？

后来想明确了，这是因为Spark须要分布运算造成的。

先想一下Scala List的foldLeft是怎么工作的？

1	`companies.foldLeft(Company("King"))((king,company)=>Company(name=king.name,king.children:+company))`

拿到初始值，即名字为king的公司，把它和list中的第一个公司合并，成为一个包括一家子公司的新公司
把上一步中的新公司拿来和list中的第二个公司合并，成为一个包括两家子公司的新公司
把上一步中的新公司拿来和list中的第三个公司合并，成为一个包括三家子公司的新公司

这是同构的过程。

1	`companies.foldLeft("")((acc,company)=>acc+company.name)`

拿到初始值，即空字符串。把它和list中的第一个公司的名字拼在一起，成为B
把上一步中的B第二个公司名字拼一起。成为BA
把上一步中的BA拿来和list中的第三个公司的名字拼一起，成为BAT

这是异构的过程。

像多米诺骨牌一样，从左到右依次把list中的元素吸收入结果中。

如今如果RDD[X]中有一个类似foldLeft的API，其签名和foldLeft一致，我如今调用foldLeft，给它一个f:(Y,X)=>Y，接下来该发生什么呢？

由于要分布计算，所以我先要把手里的非常多个X分成几份。分发到不同的节点上去
每一个节点把拿到的非常多个X计算出一个Y出来
把全部节点的结果拿来，这时我手里就有了非常多个Y
啊。。。我不知道怎么把非常多个Y变成一个Y啊。。。

因为Spark的RDD不像Scala的List一样仅仅须要推倒一副多米诺骨牌。而是要推倒非常多副。最后再对非常多副多米诺骨牌的结果做聚合。

这时假设是同构还好，我仅仅须要再用f:(X,X)=>X做一遍就ok了。

可是假设是异构的，那我就必须得再须要一个f:(Y,Y)=>Y了。

Spark RDD的fold和aggregate为什么是两个API？为什么不是一个foldLeft？的更多相关文章

Apache Spark : RDD
Resilient Distributed Datasets Resilient Distributed Datasets (RDD) is a fundamental data structure ...
Spark RDD
对RDD的学习进行一下整理 RDD:基于内存的集群计算容错抽象分布式内存抽象的概念---弹性分布式数据集(RDD),它具备MapReduce等数据流模型的容错特性,并且允许开发人员在大型集群上执行基 ...
Spark RDD概念学习系列之Spark的算子的分类（十一）
Spark的算子的分类从大方向来说,Spark 算子大致可以分为以下两类: 1)Transformation 变换/转换算子:这种变换并不触发提交作业,完成作业中间过程处理. Transformat ...
spark RDD编程，scala版本
1.RDD介绍: RDD,弹性分布式数据集,即分布式的元素集合.在spark中,对所有数据的操作不外乎是创建RDD.转化已有的RDD以及调用RDD操作进行求值.在这一切的背后,Spark会自动 ...
Spark RDD编程核心
一句话说,在Spark中对数据的操作其实就是对RDD的操作,而对RDD的操作不外乎创建.转换.调用求值. 什么是RDD RDD(Resilient Distributed Dataset),弹性分布式 ...
Spark RDD :Spark API--Spark RDD
一.RDD的概述 1.1 什么是RDD? RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变.可分区.里面的元素 ...
Spark Rdd coalesce()方法和repartition()方法
在Spark的Rdd中,Rdd是分区的. 有时候需要重新设置Rdd的分区数量,比如Rdd的分区中,Rdd分区比较多,但是每个Rdd的数据量比较小,需要设置一个比较合理的分区.或者需要把Rdd的分区数量 ...
Spark RDD aggregateByKey
aggregateByKey 这个RDD有点繁琐,整理一下使用示例,供参考直接上代码 import org.apache.spark.rdd.RDD import org.apache.spark. ...
spark RDD transformation与action函数整理
1.创建RDD val lines = sc.parallelize(List("pandas","i like pandas")) 2.加载本地文件到RDD ...

随机推荐

Linux内核入门（六）—— __attribute__ 机制【转】
转自:https://blog.csdn.net/yunsongice/article/details/5538020 GNU C的一大特色(却不被初学者所知)就是__attribute__机制.__ ...
jquery-实用例子
一:jquery实现全选取消反选 3元运算:条件?真值:假值 <!DOCTYPE html> <html lang="en"> <head> & ...
intellij 出现“Usage of API documented as @since 1.8+”的解决办法
intellij 出现“Usage of API documented as @since 1.8+”的解决办法 Usage of API documented as @since 1.8+ This ...
vector的reserve和resize(转）
转自:http://www.cnblogs.com/qlee/archive/2011/05/16/2048026.html vector 的reserve增加了vector的capacity,但是它 ...
EntityFrameWork 图解
JDBC事务与事务隔离级别详解
事务基本概念一组要么同时执行成功,要么同时执行失败的SQL语句.是数据库操作的一个执行单元. 事务开始于: 连接到数据库上,并执行一条DML语句insert.update或delete 前一个事务结 ...
详解VirtualBox虚拟机网络环境解析和搭建-NAT、桥接、Host-Only、Internal、端口映射
本文以VirtualBox为例如果出现主机无法ping通虚拟机的情况,请首先确认虚拟机防火墙已关闭. 一.NAT模式特点: 1.如果主机可以上网,虚拟机可以上网 2.虚拟机之间不能ping通 3. ...
UVa140 Bandwidth 小剪枝+双射小技巧+枚举全排列+字符串的小处理
给出一个图,找出其中的最小带宽的排列.具体要求见传送门:UVa140 这题有些小技巧可以简化代码的编写. 本题的实现参考了刘汝佳老师的源码,的确给了我许多启发,感谢刘老师. 思路: 建立双射关系:从字 ...
Java反射初探 ——“当类也学会照镜子”
反射的作用开门见山地说说反射的作用 1.为我们提供了全面的分析类信息的能力 2.动态加载类我理解的“反射”的意义 (仅个人理解哈) 我理解的java反射机制就是: 提供一套完善而强大的 ...
app微信支付宝支付后台的插件模式+回调通过spring广播处理后续业务（已亲测可用）
写在前面的话:每当我们做一个项目,基本上都会涉及到支付的业务,最常用的莫过于微信和支付宝的支付了,项目有bug,有问题,都不叫问题,可一旦钱出了问题,那就是大问题了,所以在支付业务上我们必须慎之又慎! ...

Spark RDD的fold和aggregate为什么是两个API？为什么不是一个foldLeft？

Spark RDD的fold和aggregate为什么是两个API？为什么不是一个foldLeft？的更多相关文章

随机推荐

热门专题