spark aggregate算子

spark aggregate源代码

  /**

   * Aggregate the elements of each partition, and then the results for all the partitions, using

   * given combine functions and a neutral "zero value". This function can return a different result

   * type, U, than the type of this RDD, T. Thus, we need one operation for merging a T into an U

   * and one operation for merging two U's, as in scala.TraversableOnce. Both of these functions are

   * allowed to modify and return their first argument instead of creating a new U to avoid memory

   * allocation.

   */

  def aggregate[U](zeroValue: U)(seqOp: JFunction2[U, T, U],

    combOp: JFunction2[U, U, U]): U =

    rdd.aggregate(zeroValue)(seqOp, combOp)(fakeClassTag[U])

aggregate用于聚合RDD中的元素，先使用seqOp将RDD中每个分区中的T类型元素聚合成U类型，
再使用combOp将之前每个分区聚合后的U类型聚合成U类型，注意seqOp和combOp都会使用zeroValue的值，zeroValue的类型为U。

样例代码：

需要注意的是：

单分区和多分区是不一样的。

        List<Integer> list = new ArrayList<>();

        list.add(2);

        list.add(3);

        list.add(2);

        list.add(5);

        list.add(2);

        list.add(6);

        //单分区情况下

        JavaRDD<Integer> rdd1 = sc.parallelize(list,1);

        System.out.println("NumPartitions :"+rdd1.getNumPartitions());

        int result1 = rdd1.aggregate(1, new Function2<Integer, Integer, Integer>() {

            @Override

            public Integer call(Integer v1, Integer v2) throws Exception {

                return v1 * v2;//等同于zeroValue*2得到的值再*3...同理得到的值再*2*5*2*6等于720

            }

        }, new Function2<Integer, Integer, Integer>() {

            @Override

            public Integer call(Integer v1, Integer v2) throws Exception {

                return v1 + v2;//等同于zeroValue+前面函数得到的值，也就是1+720=721

            }

        });

        System.out.println("result1: "+result1);

        //多分区情况下

        JavaRDD<Integer> rdd2 = sc.parallelize(list,2);

        System.out.println("NumPartitions :"+rdd2.getNumPartitions());

        JavaRDD<String> mapPartitionsWithIndex = rdd2.mapPartitionsWithIndex(new Function2<Integer, Iterator<Integer>, Iterator<String>>() {

            @Override

            public Iterator<String> call(Integer part_id, Iterator<Integer> iterator) throws Exception {

                List<String> list = new ArrayList<>();

                while (iterator.hasNext()) {

                    list.add("partition" + part_id + ":" + iterator.next());

                }

                return list.iterator();

            }

        }, true);

        mapPartitionsWithIndex.foreachPartition((VoidFunction<Iterator<String>>) iterator -> {

            while (iterator.hasNext()) {

                System.out.println(iterator.next());

            }

        });

        //输出结果：

//        partition0:2

//        partition0:3

//        partition0:2

//        partition1:5

//        partition1:2

//        partition1:6

        int result2 = rdd2.aggregate(2, new Function2<Integer, Integer, Integer>() {

            @Override

            public Integer call(Integer v1, Integer v2) throws Exception {

                return v1 * v2;

                //这次修改zeroValue为2

                //partition0中的元素有2,3,2 计算结果是2*2*3*2=24 其中2指zeroValue

                //partition0中的元素有5,2,6 计算结果是2*5*2*6=120 其中2指zeroValue

            }

        }, new Function2<Integer, Integer, Integer>() {

            @Override

            public Integer call(Integer v1, Integer v2) throws Exception {

                return v1 + v2;

                //计算结果2+24+120=146，其中2指zeroValue

            }

        });

        System.out.println("result2: "+result2);

spark aggregate算子的更多相关文章

Spark RDD概念学习系列之Spark的算子的分类（十一）
Spark的算子的分类从大方向来说,Spark 算子大致可以分为以下两类: 1)Transformation 变换/转换算子:这种变换并不触发提交作业,完成作业中间过程处理. Transformat ...
Spark常用算子-KeyValue数据类型的算子
package com.test; import java.util.ArrayList; import java.util.List; import java.util.Map; import or ...
Spark RDD概念学习系列之Spark的算子的作用（十四）
Spark的算子的作用首先,关于spark算子的分类,详细见 http://www.cnblogs.com/zlslch/p/5723857.html 1.Transformation 变换/转换算 ...
Spark操作算子本质-RDD的容错
Spark操作算子本质-RDD的容错spark模式1.standalone master 资源调度 worker2.yarn resourcemanager 资源调度 nodemanager在一个集群 ...
Spark RDD算子介绍
Spark学习笔记总结 01. Spark基础 1. 介绍 Spark可以用于批处理.交互式查询(Spark SQL).实时流处理(Spark Streaming).机器学习(Spark MLlib) ...
列举spark所有算子
一.RDD概述 1.什么是RDD RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可 ...
java实现spark常用算子之groupbykey
import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spa ...
[大数据之Spark]——Actions算子操作入门实例
Actions reduce(func) Aggregate the elements of the dataset using a function func (which takes two ar ...
spark aggregate函数详解
aggregate算是spark中比较常用的一个函数,理解起来会比较费劲一些,现在通过几个详细的例子带大家来着重理解一下aggregate的用法. 1.先看看aggregate的函数签名在spark的 ...

随机推荐

Session共享解决方案
使用nginx做的负载均衡添加一个ip_hash配置一.开两个Tomcat写测试程序 @WebServlet("/nginxSessionServlet") public cla ...
c++构造函数的初始化列表（翁恺c++公开课[13]）
初始化列表形式: class Point { private: const float x,y; Point(float xa = 0.0, flato ya = 0.0):y(ya),x(xa) { ...
SpringBoot + redis + @Cacheable注解实现缓存清除缓存
一.Application启动类添加注解 @EnableCaching 二.注入配置 @Bean public CacheManager cacheManager(RedisTemplate redi ...
STM32L152笔记
一段式液晶初始化停在while(LCD_GetFlagStatus(LCD_FLAG_RDY) == RESET)中不出来,网上给的原因和解决办法: 1 也RTC的时钟有关,需要先配置RTC时钟 2 ...
vs code 本地调试配置
{ "name": "使用本机 Chrome 调试", "type": "chrome", "request& ...
XML规范化（DTD）
无意义的XML 之前说过因为xml没有预设的标签,所以说你怎麽写他一般都不会报错. 所以需要对xml的书写格式进行一些限制,这就引入了DTD 下面的这个xml你可以给book添加各种属性还不会报错,但 ...
Centos7 nginx的目录结构与nginx主配置文件解析
一.nginx的目录结构 [root@node nginx_116]# ls client_body_temp conf fastcgi_temp html logs proxy_temp ...
由Nginx反向代理引出的JCaptcha验证码验证失败的问题
搜索关键字: 1)Windows本地开发正常,部署到Linux远程服务器上JCaptcha验证失败 2)Linux远程服务器上JCpatcha验证失败 3)Nginx反向代理后JCaptcha验证失败 ...
LNMP一键安装包 PHP自动升级脚本
LNMP一键安装包 PHP自动升级脚本 2011年03月15日上午 | 作者:VPS侦探前一段时间完成了lnmp一键安装包的PHP自动升级脚本,今天发布出来,如果想升级PHP版本的lnmp用户可以 ...
mac访问mysql
常用操作开启Mysql服务 1.在终端中输入添加MySQL路径的命令: PATH="$PATH":/usr/local/mysql/bin; 2.在终端输入 mysql -uro ...

spark aggregate算子

spark aggregate算子的更多相关文章

随机推荐

热门专题