Spark聚合操作：combineByKey()

Spark中对键值对RDD(pairRDD)基于键的聚合函数中，都是通过combineByKey()实现的。

它可以让用户返回与输入数据类型不同的返回值（可以自己配置返回的参数，返回的类型）

首先理解：combineByKey是一个聚合函数，实际使用场景比如,对2个同学的3门考试科目成绩，分别求出他们的平均值。

（也就是对3门考试成绩进行聚合，用一个平均数来表示）

combineByKey是通过3个内部函数来解决这个问题的：

具体处理过程为：遍历分区中的所有元素，因此每一个元素的键要么没有遇到过，要么就和之前的键相等。

它的参数形式为：combineByKey(1.createCombiner,2.mergeValue,3.mergeCombiners,4.partioner)

比如，我有一个数组{1,2,1,2,4}

具体流程为：第一次遇到1，调用createCombiner()函数。

2.第一次遇到2，调用createCombiner()函数。

3.第二次遇到1，调用mergeValue()函数。

4.第二次遇到2，调用mergeValue()函数。

5.第一次遇到4，调用mergeValue()函数。

接下来解释每一个函数的作用

1.createCombiner():在遍历过程中，遇到新的键，就会调用createCombiner()函数。这个过程会发生在每一个分区内，因为RDD中有不同的分区，也就有同一个键调用多次createCombiner的情况。

2.mergeValue() 遇到已经重复的键，调用mergeValue()函数。

3.mergeCombiners() 如果有2个或者更多的分区，会把分区的结果合并。

4.pationer 分区函数（）

举例：

准备数据：

val scores =sc.parallelize(Array(

("jack",89.0),

("jack",82.0),

("jack",92.0),

("tom",88.0),

("tom",89.0),

("tom",98.0)

))

　　数据为jack和tom的3门科目成绩，要对jack和tom的平均成绩进行输出。

1.遍历过程中，统计课程的数目，同时计算总分。

val score2=scores.combineByKey(x =>(1,x) ,

(c1:(Int,Double),newScore)=>(c1._1+1,c1._2+newScore),

(c1:(Int,Double),c2:(Int,Double))=>(c1._1+c2._1,c1._2+c2._2))

详解：

x =>(1,x) 将scores的value转化为(1,value)的格式

(c1:(Int,Double),newScore)=>(c1._1+1,c1._2+newScore) 遇到重复的key：我们对value的处理过程为：

之前计算的结果定义为newScore,对c1:(c1._1,c2._2)处理过程为：(c1._1+1,c2._2+newScore)

实际意义为：再次遍历到jack时，我们将科目数量+1，将统计的总分再加上遍历到的分数。

(c1:(Int,Double),c2:(Int,Double))=>(c1._1+c2._1,c1._2+c2._2)) 对2个不同的分区c1,c2（这2个分区，他的键相同，都是Jack）

最后我们将不同分区的结果相加。

比如我们还有另一个分区("jack",45) 代表c2。我们要将Jack的科目数+1，总分+45. 获得最终结果

统计得到的结果：得到姓名：科目+总分

scala> score2.foreach(println)

(tom,(3,275.0))

(jack,(3,263.0))

2.求平均值：

val average=score2.map{case(name, (num,score) )=>(name,score/num) }

结果： average.foreach(println)

(tom,91.66666666666667)

(jack,87.66666666666667)

Spark聚合操作：combineByKey()的更多相关文章

Spark GraphX 聚合操作
package Spark_GraphX import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.graph ...
Spark RDD 操作
1. Spark RDD 创建操作 1.1 数据集合 parallelize 可以创建一个能够并行操作的RDD.其函数定义如下: ) scala> sc.defaultParallelism ...
spark中的combineByKey函数的用法
一.函数的源码 /** * Simplified version of combineByKeyWithClassTag that hash-partitions the resulting RDD ...
Update(Stage4)：sparksql：第3节 Dataset (DataFrame) 的基础操作 & 第4节 SparkSQL_聚合操作_连接操作
8. Dataset (DataFrame) 的基础操作 8.1. 有类型操作 8.2. 无类型转换 8.5. Column 对象 9. 缺失值处理 10. 聚合 11. 连接 8. Dataset ...
《Entity Framework 6 Recipes》中文翻译系列 (27) ------ 第五章加载实体和导航属性之关联实体过滤、排序、执行聚合操作
翻译的初衷以及为什么选择<Entity Framework 6 Recipes>来学习,请看本系列开篇 5-9 关联实体过滤和排序问题你有一实体的实例,你想加载应用了过滤和排序的相关 ...
MongoDB 聚合操作
在MongoDB中,有两种方式计算聚合:Pipeline 和 MapReduce.Pipeline查询速度快于MapReduce,但是MapReduce的强大之处在于能够在多台Server上并行执行复 ...
.NET LINQ 聚合操作
聚合操作聚合运算从值集合计算单个值. 从一个月的日温度值计算日平均温度就是聚合运算的一个示例. 方法方法名说明 C# 查询表达式语法 Visual Basic 查询表达式语法更多信息 ...
Linq查询操作之聚合操作(count,max,min,sum,average,aggregate,longcount)
在Linq中有一些这样的操作,根据集合计算某一单一值,比如集合的最大值,最小值,平均值等等.Linq中包含7种操作,这7种操作被称作聚合操作. 1.Count操作,计算序列中元素的个数,或者计算满足一 ...
OpenStack/Gnocchi简介——时间序列数据聚合操作提前计算并存储起来，先算后取的理念
先看下 http://www.cnblogs.com/bonelee/p/6236962.html 这里对于环形数据库的介绍,便于理解归档这个操作! 转自:http://blog.sina.com.c ...

随机推荐

【问题记录】uwsgi部署并启动俩个几乎一样的python flask web app，发现有一个app响应时间非常长
uwsgi在同一台linux上启动python flask web app(俩个), 发现第一个和第二个的简单性能测试差距非常大,差了将近一倍: 第一个结果: Concurrency Level: 1 ...
解决redis-cli command not found问题
在使用其他服务器连接Redis服务器时,一般使用的语句是 [redis-cli -h IP -p port] 但是早上连接时报错:redis-cli command not found 在redis服 ...
Python中的赋值和拷贝
赋值在python中,赋值就是建立一个对象的引用,而不是将对象存储为另一个副本.比如: >>> a=[1,2,3] >>> b=a >>> c= ...
zookeeper 快速入门
分布式系统简介在分布式系统中另一个需要解决的重要问题就是数据的复制.我们日常开发中,很多人会碰到一个问题:客户端C1更新了一个值K1由V1更新到V2.但是客户端C2无法立即读取到K的最新值.上面的例 ...
Payment：微信支付配置文件设置说明
项目GitHub地址:https://github.com/helei112g/payment 微信支付个人觉得在帐号设置上有些麻烦,帐号太多啦,支付宝目前就是一个应用基本涵盖了所有的接口开发. 可能 ...
BZOJ4522:[CQOI2016]密钥破解(Pollard-Rho,exgcd)
Description 一种非对称加密算法的密钥生成过程如下: 1. 任选两个不同的质数 p ,q 2. 计算 N=pq , r=(p-1)(q-1) 3. 选取小于r ,且与 r 互质的整数 e ...
BZOJ4571:[SCOI2016]美味(主席树,贪心)
Description 一家餐厅有 n 道菜,编号 1...n ,大家对第 i 道菜的评价值为 ai(1≤i≤n).有 m 位顾客,第 i 位顾客的期望值为 bi,而他的偏好值为 xi . 因此,第 ...
3282. Tree【LCT】
Description 给定N个点以及每个点的权值,要你处理接下来的M个操作. 操作有4种.操作从0到3编号.点从1到N编号. 0:后接两个整数(x,y),代表询问从x到y的路径上的点的权值的xor和 ...
kubernetes 安装学习
什么是Kubernetes Kubernetes是一个开源平台,用于跨主机群集自动部署,扩展和操作应用程序容器,提供以容器为中心的基础架构. 使用Kubernetes,您可以快速高效地响应客户需求: ...
ASP.NET Razor引入命名空间（视图中数据序列化）
问题描述: 视图有时可以作为保存数据的载体,使用Razor语法给我们带来便捷的同时,也会使我们陷入局限.@可以保存int.bool.string等类型,但却保存不了对象类型,例如Dictionary. ...

Spark聚合操作：combineByKey()

Spark聚合操作：combineByKey()的更多相关文章

随机推荐

热门专题