对spark算子aggregateByKey的理解

案例

aggregateByKey算子其实相当于是针对不同“key”数据做一个map+reduce规约的操作。

举一个简单的在生产环境中的一段代码
有一些整理好的日志字段，经过处理得到了RDD类型为(String,(String,String))的List格式结果，其中各个String代表的是：(用户名,(访问时间,访问页面url))
同一个用户可能在不同的时间访问了不同或相同的页面，为了合并同一个用户的访问行为，写了下面这段代码，用到aggregateByKey。

val data = sc.parallelize(

List(

("13909029812",("20170507","http://www.baidu.com")),("18089376778",("20170401","http://www.google.com")),("18089376778",("20170508","http://www.taobao.com")),("13909029812",("20170507","http://www.51cto.com"))

)

)

        data.aggregateByKey(scala.collection.mutable.Set[(String, String)](), 200)((set, item) => {

          set += item

        }, (set1, set2) => set1 union set2).mapValues(x => x.toIterable).collect

结果：

res12: Array[(String, Iterable[(String, String)])] = Array((18089376778,Set((20170401,http://www.google.com), (20170508,http://www.taobao.com))), (13909029812,Set((20170507,http://www.51cto.com), (20170507,http://www.baidu.com))))

分解分析：##

aggregateByKey(参数1)(参数2，参数3)

过程：对于data的某个key，参数1为初始化值，在参数2的函数中，初始值和该key的每一个value传入函数进行操作，所有返回的结果在参数3中进行规约。

参数1

  scala.collection.mutable.Set[(String, String)]()

new 了一个空的set集合，做为初始值

参数2
(set, item) => {
set += item
}
一个类似于map的映射函数，将该key的每一个value（在本案例之是(访问时间，访问url)）作为item，将其放入set中并返回。
可知某个key的所有value都会返回一个含有该value的set
参数3
(set1, set2) => set1 union set2
该key的所有value得到的set进行union规约。并返回

最终结果：得到了每一个用户在所有时间的访问url的行为信息。

作者：Entry_1
链接：https://www.jianshu.com/p/09912beb1350
來源：简书
简书著作权归作者所有，任何形式的转载都请联系作者获得授权并注明出处。

对spark算子aggregateByKey的理解的更多相关文章

Spark算子 - aggregateByKey
释义 aggregateByKey逻辑类似 aggregate,但 aggregateByKey针对的是PairRDD,即键值对 RDD,所以返回结果也是 PairRDD,结果形式为:(各个Key, ...
Spark：常用transformation及action，spark算子详解
常用transformation及action介绍,spark算子详解一.常用transformation介绍 1.1 transformation操作实例二.常用action介绍 2.1 act ...
【Spark】Spark-reduceByKey-深入理解
Spark-reduceByKey-深入理解 spark.apache.org_百度搜索 Apache Spark™ - Lightning-Fast Cluster Computing reduce ...
PairRDD中算子aggregateByKey图解
PairRDD 有几个比较麻烦的算子,常理解了后面又忘记了,自己按照自己的理解记录好,以备查阅 1.aggregateByKey aggregate 是聚合意思,直观理解就是按照Key进行聚合. 转化 ...
spark-聚合算子aggregatebykey
spark-聚合算子aggregatebykey Aggregate the values of each key, using given combine functions and a neutr ...
(转)Spark 算子系列文章
http://lxw1234.com/archives/2015/07/363.htm Spark算子:RDD基本转换操作(1)–map.flagMap.distinct Spark算子:RDD创建操 ...
Spark机器学习 Day2 快速理解机器学习
Spark机器学习 Day2 快速理解机器学习有两个问题: 机器学习到底是什么. 大数据机器学习到底是什么. 机器学习到底是什么人正常思维的过程是根据历史经验得出一定的规律,然后在当前情况下根据这 ...
Spark算子总结及案例
spark算子大致上可分三大类算子: 1.Value数据类型的Transformation算子,这种变换不触发提交作业,针对处理的数据项是Value型的数据. 2.Key-Value数据类型的Tran ...
UserView--第二种方式（避免第一种方式Set饱和），基于Spark算子的java代码实现
UserView--第二种方式(避免第一种方式Set饱和),基于Spark算子的java代码实现测试数据 java代码 package com.hzf.spark.study; import ...

随机推荐

Cracking The Coding Interview 9.1
//原文: // // You are given two sorted arrays, A and B, and A has a large enough buffer at the end to ...
Linux文件管理常用命令用法总结
1.touch change file timestamps. 命令用于修改文件或者目录的时间属性,包括存取时间和更改时间.若文件不存在,系统会建立一个新的文件.stat,ls -l 可以显示档案的时 ...
DevExpress v18.1新版亮点——Reporting篇（四）
用户界面套包DevExpress v18.1日前终于正式发布,本站将以连载的形式为大家介绍各版本新增内容.本文将介绍了DevExpress Reporting v18.1 的新功能,快来下载试用新版本 ...
activemq 生产消费模式，订阅发布模式不同类型数据传输
1.项目结构 2. activemq-pom pom.xml <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns ...
windows 访问局域网共享文件
直接在浏览器或资源管理器输入路径就OK file://10.16.73.129/FinTech/soft
L319 Zigbee test coding- field test fail-base on EFR32MG1
1 Test coding Zigbee test of Tx power and frequency for every channel. Testing Procedure1) Power up ...
通过日志关键字检测判断obb程序是否工作正常
C118+Osmocom-bb 多机 gsm sniff环境,经常发生工作一段时间后,某个手机监听的arfcn就不工作了. 检查日志发现,日志最后有连续的多条:TOA AVG is not 16 qb ...
复习回顾（String，StringBuffer，Arrays方法总结）
String: String类的对象是一经创建就无法变动内容的字符串常量,创建String类的对象可以使用直接赋值和利用构造方法赋值 String str=“hello”; String str=n ...
table中head表头固定，body滚动
<style type="text/css"> .table-head { background-color: #; color: #; } .table-body { ...
(转载)Peter Norvig：十年学会编程
作者 Peter Norvig 是计算机科学家,Google 的研究总监.在本文中,Peter Norvig会告诉你:为什么急功近利地学习软件开发技术是没效果滴? ================华丽 ...

对spark算子aggregateByKey的理解

案例

分解分析：##

对spark算子aggregateByKey的理解的更多相关文章

随机推荐

热门专题