Spark算子 - aggregateByKey

释义

aggregateByKey逻辑类似 aggregate，但 aggregateByKey针对的是PairRDD，即键值对 RDD，所以返回结果也是 PairRDD，结果形式为：(各个Key, 同样Key对应的Value聚合后的值)
aggregateByKey先将每个partition内元素进行分组计算，然后将每个partition的计算结果进行combine，得到最终聚合结果。且最终结果允许跟原始RDD类型不同

方法签名如下：

def aggregateByKey[U: ClassTag](zeroValue: U)(seqOp: (U, V) => U, combOp: (U, U) => U): RDD[(K, U)] = self.withScope {

    ...

}

zeroValue: 每个partition的聚合初始值
seqOp: sequence operation，对partition内数据进行映射，最终1个partition只有1个结果。输入类型为U跟V，输出为U，即每次操作结果要跟zeroValue类型一致
- 第一次操作时，U为zeroValue（初始值），第一次操作之后输出结果U，作为下一次操作的U
- 第二次操作及之后操作时，U为前一次操作输出结果，而不再是zeroValue
combOp: combine operation，对每个partition的结果进行combine操作。输入类型为U跟U，输出为U，即输入类型与输出类型一致，最终结果为：(K, U)类型的PairRDD

案例

统计单词个数 WordCount

object TestAggregateByKey {

  def main(args: Array[String]): Unit = {

    val conf: SparkConf = new SparkConf().setAppName("TestAggregateByKey").setMaster("local[1]")

    val sc = new SparkContext(conf)

    val data = Array("hello world", "simple app is good", "good world")

    val result: Array[(String, Int)] = sc.parallelize(data, 1)

      .flatMap(_.split(" "))

      .map((_, 1))

      .aggregateByKey(0)(

        (cnt1: Int, cnt2: Int) => cnt1 + cnt2,

        (partitionAllCnt1: Int, partitionAllCnt2: Int) => partitionAllCnt1 + partitionAllCnt2

      )

      .collect()

    result.foreach(println)

  }

}

输出

(is,1)

(app,1)

(simple,1)

(hello,1)

(good,2)

(world,2)

解释

先将每个词map成 (词语, 1)的形式
调用aggregateByKey之后，每个partition内已经按key进行分组了，之后传入初始值0作为每个组的个数，接着进行 cnt1 + cnt2，就是同个key内进行1+1操作，比如单词good 有两个value都是1，此时单词good的组内，计算的值即为2
所有partition的结果进行计算

Spark算子 - aggregateByKey的更多相关文章

对spark算子aggregateByKey的理解
案例 aggregateByKey算子其实相当于是针对不同“key”数据做一个map+reduce规约的操作. 举一个简单的在生产环境中的一段代码有一些整理好的日志字段,经过处理得到了RDD类型为( ...
spark-聚合算子aggregatebykey
spark-聚合算子aggregatebykey Aggregate the values of each key, using given combine functions and a neutr ...
Spark：常用transformation及action，spark算子详解
常用transformation及action介绍,spark算子详解一.常用transformation介绍 1.1 transformation操作实例二.常用action介绍 2.1 act ...
(转)Spark 算子系列文章
http://lxw1234.com/archives/2015/07/363.htm Spark算子:RDD基本转换操作(1)–map.flagMap.distinct Spark算子:RDD创建操 ...
Spark算子总结及案例
spark算子大致上可分三大类算子: 1.Value数据类型的Transformation算子,这种变换不触发提交作业,针对处理的数据项是Value型的数据. 2.Key-Value数据类型的Tran ...
UserView--第二种方式（避免第一种方式Set饱和），基于Spark算子的java代码实现
UserView--第二种方式(避免第一种方式Set饱和),基于Spark算子的java代码实现测试数据 java代码 package com.hzf.spark.study; import ...
UserView--第一种方式set去重，基于Spark算子的java代码实现
UserView--第一种方式set去重,基于Spark算子的java代码实现测试数据 java代码 package com.hzf.spark.study; import java.util.Ha ...
spark算子之DataFrame和DataSet
前言传统的RDD相对于mapreduce和storm提供了丰富强大的算子.在spark慢慢步入DataFrame到DataSet的今天,在算子的类型基本不变的情况下,这两个数据集提供了更为强大的的功 ...
Spark算子总结（带案例）
Spark算子总结(带案例) spark算子大致上可分三大类算子: 1.Value数据类型的Transformation算子,这种变换不触发提交作业,针对处理的数据项是Value型的数据. 2.Key ...

随机推荐

《手把手教你》系列技巧篇（五十五）-java+ selenium自动化测试-上传文件-下篇（详细教程）
1.简介在实际工作中,我们进行web自动化的时候,文件上传是很常见的操作,例如上传用户头像,上传身份证信息等.所以宏哥打算按上传文件的分类对其进行一下讲解和分享. 2.为什么selenium没有提供 ...
TypeScript 中文教程之缩小----部分翻译自TS官方
Narrowing概念:字面意思是缩小,可以理解为细化或者您觉得更好的代名词. TS官方在这里做了很详细的说明,文字较多,简单以图片概括: typeof type guards 类型防护过程,可以通 ...
初识python： while循环猜年龄小游戏
知识点: 1.python注释方法: 单行注释: # 多行注释: '''注释内容 ''' (单引号或双引号都可以),亦可打印多行例: #此处是单行注释信息 print('这里是打印内容') #这里 ...
CentOS7防火墙firewalld 和 CentOS6防火墙iptables的一些配置命令
CentOS7 防火墙一.防火墙的开启.关闭.禁用.查看状态命令 (1)启动防火墙:systemctl start firewalld (2)关闭防火墙:systemctl stop firewal ...
Servlet初级学习加入数据库操作（三）
源代码地址(访问密码:7567):https://url56.ctfile.com/f/34653256-527822631-2e255a CRUD 增删改查准备添加的操作点击添加之后,出现新的页 ...
Java8的stream用法整理
map 1 直接获取对象的值 this.categoryMapper.selectByIdList(ids).stream().map(Category::getName).collect(Colle ...
LCT小记
不用说了,直接上怎么 die( 千万不要和 Treap 一样写左旋 zig 和右旋 zag,莫名死亡.Splay 只支持一个 rotate 上旋一个节点即可. splay() 之前记得弄一个栈存储 u ...
安装MySQL到Ubuntu 20.04
本文的内容主要来自对How To Install MySQL on Ubuntu 20.04的翻译.在根据该文的指导下,我在自己的Ubuntu 20.04.3 LTS版本中安装了MySQL 8. St ...
INFO client.RMProxy: Connecting to ResourceManager at hadoop
1.查看防火墙是否没关闭. 2.用jps 命令查看是否没有启动resourcemanager
数据库DDL、DML、DCL、DQL、DPL、CCL的全称和使用
数据库DDL.DML.DCL.DQL.DPL.CCL的全称和使用简介: SQL (Structure Query Language):结构化查询语言,一种特殊目的的编程语言,一种数据库查询和程序设计 ...

Spark算子 - aggregateByKey

释义

案例

输出

解释

Spark算子 - aggregateByKey的更多相关文章

随机推荐

热门专题