scala combineByKey用法说明

语法是：

combineByKey[C](

createCombiner: V => C,

mergeValue: (C, V) => C,

mergeCombiners: (C, C) => C

)

标记一下：（因为有很多同样的字母，方便说明我就按照字母+数字标记一下）

语法说明：（不复制网上的，我按照我的理解大白话说明）

1，combineByKey 中的byKey 就是按照键来处理，你就默认他丫知道哪些键是一样的，他会在每个分区自动归类同样的键，你就操心怎么处理值就行了，总之就是：对相同K，把V合并成一个集合

2，每条数据会被遍历，如果某条数据的键是第一遇到，就用createCombiner 处理，否则用mergeValue （你要是第一次去银行存钱，流程就是先开户，下一次去了你存钱就是其他的流程了->直接存钱就行）

3，createCombiner 和 mergeValue 处理单个分区中数据， mergeCombiners是每个分区处理完了合并数据使用

例子说明：Fred 和 william 二个人数语外分数分别是 val scores = Array(("Fred", 88), ("Fred", 95), ("Fred", 91), ("Wilma", 93), ("Wilma", 95), ("Wilma", 98))

求他们各自的平均成绩

思路是：通过combineByKey函数把按照人分组求出他们的总分和科目数，然后用map函数除一下就完事

操作1：为了模拟多个分区我创建2个分区

操作2：把每个分区的结果按照名字计算分数总和科目数量

　　说明：参照语法图

　　　　　　（左图）（右图）

　　首先：各个分区的兄弟们先干活

　　　　第一个分区遍历开始：数据为

　　　　　　　　--> 处理（Fred，88）, 因为是第一次遇到键“Fred”，所以调用createCombiner方法 (v)=> (v,1) ; 这里就是(88) => (88,1)

　　　　　　　　--> 处理（Fred，95）,不是第一次遇到键“Fred”,调用mergeValue方法(acc:(Int,Int),v)=>(acc._1+v,acc._2+1),：这里就是（（88,1），95）=>（88+95， 1+1）

　　　　　　　　--> 处理（Fred，91）,不是第一次遇到键“Fred”,调用mergeValue方法(acc:(Int,Int),v)=>(acc._1+v,acc._2+1),：这里就是（（88+95,1+1），91）=>（88+95+91， 1+1+1）

　　　　第一个分区遍历结束：返回（274,3） （注意一个分区中可能有很多不一样的键值对，我这里碰巧只有fred一个人，也许还有张三（**，**），李四（**，**））（程序本来就按照键BYkeys分组了，所以不用担心混淆了键）

　　　第二个分区遍历开始：数据为：

　　　　　　　　--> 处理（Wilma，93）, 因为是第一次遇到键“Fred”，所以调用createCombiner方法 (v)=> (v,1) ; 这里就是(93) => (93,1)

　　　　　　　　--> 处理（Wilma，95）,不是第一次遇到键“Fred”,调用mergeValue方法(acc:(Int,Int),v)=>(acc._1+v,acc._2+1),：这里就是（（93,1），95）=>（93+95， 1+1）

　　　　　　　　--> 处理（Wilma，98）,不是第一次遇到键“Fred”,调用mergeValue方法(acc:(Int,Int),v)=>(acc._1+v,acc._2+1),：这里就是（（93+95,1+1），98）=>（93+95+98， 1+1+1）

　　　　第一个分区遍历结束：返回（286,3）

　　然后：各个分区兄弟干完了汇总处理

　　　　由于我的数据少，没有模拟到比如分区 1 和分区2 都有 Fred的成绩，他三科成绩在第一个分区就全部统计到了。

　　　　　　假如分区一返回的是fred信息（274,3），

　　　　　　　　分区二返回是 fred的体育成绩（80,1），和wilma的三科成绩（286,3）

　　　　　　汇总后开始调用mergeCombiners: (C, C) => C 方法

　　　　　　 (acc1:(Int,Int),acc2:(Int,Int))=>(acc1._1+acc2._1,acc1._2+acc2._2)) 执行到就应该是 （（274,3），（80,1）） =>（274+80 , 3+1）（fred的结果）

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　。。。。。。。。。。。。=>(286,3) (WILMA的结果)

操作3：把分数总和和科目数量除一下得到平均成绩

scala combineByKey用法说明的更多相关文章

Scala中“=>”用法及含义
=> has several meanings in Scala, all related to its mathematical meaning as implication. 1. In a ...
Scala List 用法
1.++[B] 在A元素后面追加B元素 scala> val a = List(1) a: List[Int] = List(1) scala> val b = List(2) b: ...
scala函数用法
直接上代码. package com.test.scala.test object Function { def main(args: Array[String]): Unit = { println ...
【Spark算子】：reduceByKey、groupByKey和combineByKey
在spark中,reduceByKey.groupByKey和combineByKey这三种算子用的较多,结合使用过程中的体会简单总结: 我的代码实践:https://github.com/wwcom ...
Chisel语言
1 What is Chisel? Chisel(Constructing Hardware In a Scala Embedded Language)是一种嵌入在高级编程语言Scala的硬 ...
scala占位符_的用法
占位符的用途颇多,先介绍几种常用的用法 1.作为"通配符",类似Java中的*.如import scala.math._2.:_*作为一个整体,告诉编译器你希望将某个参数当作参数序 ...
spark中的combineByKey函数的用法
一.函数的源码 /** * Simplified version of combineByKeyWithClassTag that hash-partitions the resulting RDD ...
Scala进阶之路-Scala中的枚举用法案例展示
Scala进阶之路-Scala中的枚举用法案例展示作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. Scala中的枚举值和Java中的枚举值有点差别,不过使用起来也都差大同小异,我这 ...
Scala入门4（_的用法）
从网上找了一篇博客,详细讲解了Scala下划线的用法,这里做保留博客链接

随机推荐

IntelliJ IDEA 2017版 spring-boot基础补充,原理详解
一.Spring发展史 1.Spring1.x 版本一时代主要是通过XML文件配置bean,在java和xml中不断切换,在学习java web 初期的时候经常使用 2.Spring2 ...
UVa 10340 All in All （水题，匹配）
题意:给定两个字符串,问第一个串能不能从第二个串通过删除0个或多个字符得到. 析:那就一个字符一个字符的匹配,如果匹配上了就往后走,判断最后是不是等于长度即可. 代码如下: #include < ...
day3之装饰器
1.什么是装饰器? #在不改变原函数的调用的情况下,为原函数增加一些额外的功能,打印日志,执行时间,登录认证 2.装饰器的形成过程 # 需求写一个函数测试另一个函数的执行效率最初的实现方式,但是改变 ...
eclipse 安装
做一个项目,需要搭建环境.使用sql server 2005,tomcat,eclipse.过程真复杂,碰到些小问题,不过都解决了,还算顺利. win7下sql server 2005安装:http: ...
单元测试工具Numega BoundsChecker
1 前言我在本文中详细介绍了测试工具NuMega Devpartner(以下简称NuMega)的使用方法. NuMega是一个动态测试工具,主要应用于白盒测试.该工具的特点是学习简单.使用方便.功能 ...
【算法31】寻找数组的主元素(Majority Element)
题外话最近有些网友来信问我博客怎么不更新了,是不是不刷题了,真是惭愧啊,题还是在刷的,不过刷题的频率没以前高了,看完<算法导论>后感觉网上很多讨论的题目其实在导论中都已经有非常好的算法以 ...
对php和java里面的static函数和static的一些理解
static function: "static方法就是没有this的方法.在static方法里面不可以调用非静态方法,反过来是可以的.并且可以在没有创建任何对象的前提下,仅仅通过类名来调用 ...
构建NetCore应用框架之实战篇（二）：BitAdminCore框架定位及架构
本篇承接上篇内容,如果你不小心点击进来,建议重新从第一篇开始完整阅读. 构建NetCore应用框架之实战篇索引一.BitAdminCore框架简介从前篇论述我们知道,我们接下来将要去做一个管理系统 ...
数据分析融入至BI工具的新思路
欢迎访问网易云社区,了解更多网易技术产品运营经验. 很认同一种说法:BI对企业的作用不是BI本身,而是数据本身.那么BI的作用和意义是干什么的呢-是让有意义的数据自己说出自己意义的工具. BI发展至今 ...
C++一些函数的意义
1.重载 : C++ 允许多个函数拥有相同的名字,只要它们的参数列表不同就可以,这就是函数的重载 2.隐藏和覆盖的区别 IF 子类的函数与父类的名称相同,但是参数不同父类函数被隐藏(还存在) ELS ...

scala combineByKey用法说明

scala combineByKey用法说明的更多相关文章

随机推荐

热门专题