aggregate 和 treeAggregate 的对比

 1.定义

   【aggregate】

      /**

      * Aggregate the elements of each partition, and then the results for all the partitions, using

      * given combine functions and a neutral "zero value". This function can return a different result

      * type, U, than the type of this RDD, T. Thus, we need one operation for merging a T into an U

      * and one operation for merging two U's, as in scala.TraversableOnce. Both of these functions are

      * allowed to modify and return their first argument instead of creating a new U to avoid memory

      * allocation.

      */

      即：

      aggregate需要三个参数（初始值zeroValue，函数seqOp和函数combOp），返回值类型U同初始值zeroValue一样。

      处理过程：

          1.在rdd的每个分区上应用seqOp函数（应用初始值zeroValue）并返回分区的结果值（U类型）。

          2.分区的结果值返回到driver端做reduce处理，也就是说在分区的结果集上应用函数combOp（应用初始值zeroValue），

            并返回最终结果值（U类型）。

      函数头：

         def aggregate[U: ClassTag](zeroValue: U)(seqOp: (U, T) => U, combOp: (U, U) => U): U

  【treeAggregate】

     /**

      * Aggregates the elements of this RDD in a multi-level tree pattern.

      * @param depth suggested depth of the tree (default: 2)

      * @see [[org.apache.spark.rdd.RDD#aggregate]]

      */

      即：treeAggregate和aggregate可以一样用，只是多了一个参数depth，但此参数默认为2，可以不指定。

        treeAggregate和aggregate的参数，返回值及用法完全一样。只是处理过程及最终的结果集处理有些微不同，下面详细说明。

      函数头：

        def treeAggregate[U: ClassTag](zeroValue: U)(seqOp: (U, T) => U,combOp: (U, U) => U,depth: Int = 2): U

 2.用法示例



    【aggregate】

        scala> def seq(a:Int,b:Int):Int={

             | println("seq:"+a+":"+b)

             | math.min(a,b)}

        seq: (a: Int, b: Int)Int

        scala> def comb(a:Int,b:Int):Int={

             | println("comb:"+a+":"+b)

             | a+b}

        comb: (a: Int, b: Int)Int

        val z =sc.parallelize(List(1,2,4,5,8,9),3)

        scala> z.aggregate(3)(seq,comb)

        seq:3:4

        seq:3:1

        seq:1:2

        seq:3:8

        seq:3:5

        seq:3:9

        comb:3:1

        comb:4:3

        comb:7:3

        res0: Int = 10

  【treeAggregate】

        scala> def seq(a:Int,b:Int):Int={

             | println("seq:"+a+":"+b)

             | math.min(a,b)}

        seq: (a: Int, b: Int)Int

        scala> def comb(a:Int,b:Int):Int={

             | println("comb:"+a+":"+b)

             | a+b}

        comb: (a: Int, b: Int)Int

        val z =sc.parallelize(List(1,2,4,5,8,9),3)

        scala> z.treeAggregate(3)(seq,comb)

        seq:3:4   //3 分区1

        seq:3:1   //1 分区1

        seq:1:2   //1 分区1

        seq:3:8   //3 分区2

        seq:3:5   //3 分区2

        seq:3:9   //3 分区3

        comb:1:3

        comb:4:3

        res1: Int = 7

    由上可见，形式上两种用法一致，只是aggregate 比 treeAggregate在最后结果的reduce操作时，多使用了一次初始值。

    3.区别

      查看aggregate的代码和treeAggregate的代码实现会发现，确实如上现象所反映，整理结果如下：

      （1）最终结果上，aggregate会比treeAggregate多做一次对于初始值的combOp操作。但从参数名字上就可以看到，

          一般要传入类似0或者空的集合的zeroValue初始值。

      （2）aggregate会把分区的结果直接拿到driver端做reduce操作。treeAggregate会先把分区结果做reduceByKey，

          最后再把结果拿到driver端做reduce,算出最终结果。reduceByKey需要几层，由参数depth决定，也就是相当于

          做了depth层的reduceByKey，这也是treeAggregate名字的由来。

    4.源码解释

      源码逻辑如上分析，较简单，不赘述了。
      借鉴图一张（http://blog.csdn.net/lookqlp/article/details/52121057）
      

    5.优缺点

      （1） aggregate在combine上的操作，复杂度为O(n). treeAggregate的时间复杂度为O(lg n)。n为分区数。

       (2) aggregate把数据全部拿到driver端，存在内存溢出的风险。treeAggregate则不会。

      因此，笔者觉得就用treeAggregate好了，如有不对之处，敬请留言指正。

aggregate 和 treeAggregate 的对比的更多相关文章

Spark MLlib 之 aggregate和treeAggregate从原理到应用
在阅读spark mllib源码的时候,发现一个出镜率很高的函数--aggregate和treeAggregate,比如matrix.columnSimilarities()中.为了好好理解这两个方法 ...
SpringDataRedis入门到深入
一:简介 SpringDataRedis是SpringData开源项目中的一部分,它可以在Spring项目中更灵活简便的访问和操作Redis:原先在没有SpringDataRedis时往往使用Jedi ...
深入对比数据科学工具箱：Python和R之争
建议:如果只是处理(小)数据的,用R.结果更可靠,速度可以接受,上手方便,多有现成的命令.程序可以用.要自己搞个算法.处理大数据.计算量大的,用python.开发效率高,一切尽在掌握. 概述在真实的 ...
【mongoDB高级篇①】聚集运算之group,aggregate
group 语法 db.collection.group({ key:{field:1},//按什么字段进行分组 initial:{count:0},//进行分组前变量初始化,该处声明的变量可以在以下 ...
.net Mongo Driver 1.0与2.0的对比与2.0的优化
前言最近闲的时间有点多,所以还是写博客吧. 有人说Mongo 2.0的写法难以把控,好多地方不知道咋用,所以坚持用1.0(不愿意去尝试2.0),我感觉不可理解.所以写篇博客比较下. Mongo C# ...
【mongoDB高级篇①】聚集运算之group与aggregate
group 语法 db.collection.group({ key:{field:1},//按什么字段进行分组 initial:{count:0},//进行分组前变量初始化,该处声明的变量可以在 ...
Atitit s2018.2 s2 doc list on home ntpc.docx \Atiitt uke制度体系法律法规规章条例国王诏书.docx \Atiitt 手写文字识别讯飞科大语音云.docx \Atitit 代码托管与虚拟主机.docx \Atitit 企业文化每日心灵鸡汤值班发布.docx \Atitit 几大研发体系对比 Stage-Gat
Atitit s2018.2 s2 doc list on home ntpc.docx \Atiitt uke制度体系法律法规规章条例国王诏书.docx \Atiitt 手写文字识别 ...
mongodb与mysql命令详细对比
传统的关系数据库一般由数据库(database).表(table).记录(record)三个层次概念组成,MongoDB是由数据库(database).集合(collection).文档对象(docu ...
MongoDB的aggregate聚合
聚合框架中常用的几个操作: $project:修改输入文档的结构.可以用来重命名.增加或删除域,也可以用于创建计算结果以及嵌套文档.(显示的列,相当遇sql 的) $match:用于过滤数据,只输出符 ...

随机推荐

C#基础（七）——静态类与非静态类、静态成员的区别
静态类静态类与非静态类的重要区别在于静态类不能实例化,也就是说,不能使用 new 关键字创建静态类类型的变量.在声明一个类时使用static关键字,具有两个方面的意义:首先,它防止程序员写代码来实例 ...
php四种基础排序算法的运行时间比较
/** * php四种基础排序算法的运行时间比较 * @authors Jesse (jesse152@163.com) * @date 2016-08-11 07:12:14 */ //冒泡排序法 ...
jquery垂直公告滚动实现代码
公告滚动想必大家都有见到过吧,实现方法也有很多,下面为大家介绍使用jquery实现垂直公告滚动,感兴趣的朋友不要错过复制代码代码如下: <!DOCTYPE html PUBLIC " ...
PHP开发圣经读书笔记01
从今天开始,以“圣经”这本书为教材,系统的温习一下php,之前都是看视频学的. 1.访问表单变量--php变量名称必须与表单域的名称一致例:$_POST['uname']; //表示把表单域中na ...
nginx错误日志error_log日志级别
error_log 级别分为 debug, info, notice, warn, error, crit 默认为crit,
oracle LogMiner配置使用
一.安装LogMiner1.@D:\app\product\11.1.0\db_1\RDBMS\ADMIN\dbmslm.sql 2.@D:\app\product\11.1.0\db_1\RDBMS ...
mysql Error Handling and Raising in Stored Procedures
MySQL的存储过程错误捕获方式和Oracle的有很大的不同. MySQL中可以使用DECLARE关键字来定义处理程序.其基本语法如下: DECLARE handler_type HANDLER FO ...
Python数据结构——散列表
散列表的实现常常叫做散列(hashing).散列仅支持INSERT,SEARCH和DELETE操作,都是在常数平均时间执行的.需要元素间任何排序信息的操作将不会得到有效的支持. 散列表是普通数组概念的 ...
MapReduce多表连接
多表关联多表关联和单表关联类似,它也是通过对原始数据进行一定的处理,从其中挖掘出关心的信息.下面进入这个实例. 1 实例描述输入是两个文件,一个代表工厂表,包含工厂名列和地址编号列:另一个代表地址 ...
深入浅出分析C#接口的作用
1.C#接口的作用 :C#接口是一个让很多初学C#者容易迷糊的东西,用起来好像很简单,定义接口,里面包含方法,但没有方法具体实现的代码,然后在继承该接口的类里面要实现接口的所有方法的代码,但没有真正认 ...

aggregate 和 treeAggregate 的对比

aggregate 和 treeAggregate 的对比的更多相关文章

随机推荐

热门专题