一、键值对RDD的创建

1.从文件中加载

2.通过并行集合（数组）创建RDD

二、常用的键值对RDD转换操作

1.reduceByKey(func)

功能：使用func函数合并具有相同键的值

2.groupByKey()

功能：对具有相同键的值进行分组

3.keys

4.values

5.sortByKey()

默认按升序排序，括号里写false为降序排序

6.mapValues(func)

功能：对键值对RDD中的每个value都应用一个函数，key不会发生变化。

7.join

功能：把几个RDD当中元素key相同的进行连接

8.combineByKey

combineByKey(createCombiner,mergeValue,mergeCombiners,partitioner,mapSideCombine)

createCombiner：在第一次遇到Key时创建组合器函数，将RDD数据集中的V类型值转换C类型值（V => C）

mergeValue：合并值函数，再次遇到相同的Key时，将createCombiner的C类型值与这次传入的V类型值合并成一个C类型值（C,V）=>C

mergeCombiners：合并组合器函数，将C类型值两两合并成一个C类型值

partitioner：使用已有的或自定义的分区函数，默认是HashPartitioner mapSideCombine：是否在map端进行Combine操作,默认为true

注意：前三个函数的参数类型要对应；第一次遇到Key时调用createCombiner，再次遇到相同的Key时调用mergeValue合并值

例：编程实现自定义Spark合并方案。给定一些销售数据，数据采用键值对的形式<公司，收入>，求出每个公司的总收入和平均收入，保存在本地文件

提示：可直接用sc.parallelize在内存中生成数据，在求每个公司总收入时，先分三个分区进行求和，然后再把三个分区进行合并。只需要编写RDD combineByKey函数的前三个参数的实现。

三、综合实例

题目：给定一组键值对("spark",2),("hadoop",6),("hadoop",4),("spark",6)，键值对的key表示图书名称，value表示某天图书销量，请计算每个键对应的平均值，也就是计算每种图书的每天平均销量。

5.2 RDD编程---键值对RDD的更多相关文章

Spark 键值对RDD操作
键值对的RDD操作与基本RDD操作一样,只是操作的元素由基本类型改为二元组. 概述键值对RDD是Spark操作中最常用的RDD,它是很多程序的构成要素,因为他们提供了并行操作各个键或跨界点重新进行数 ...
3. 键值对RDD
键值对RDD是Spark中许多操作所需要的常见数据类型.除了在基础RDD类中定义的操作之外,Spark为包含键值对类型的RDD提供了一些专有的操作在PairRDDFunctions专门进行了定义.这些 ...
2. RDD编程
2.1 编程模型在Spark中,RDD被表示为对象,通过对象上的方法调用来对RDD进行转换.经过一系列的transformations定义RDD之后,就可以调用actions触发RDD的计算,act ...
Learning Spark中文版--第四章--使用键值对（1）
本章介绍了如何使用键值对RDD,Spark中很多操作都基于此数据类型.键值对RDD通常在聚合操作中使用,而且我们经常做一些初始的ETL(extract(提取),transform(转换)和load ...
【Spark 深入学习 07】RDD编程之旅基础篇03-键值对RDD
--------------------- 本节内容: · 键值对RDD出现背景 · 键值对RDD转化操作实例 · 键值对RDD行动操作实例 · 键值对RDD数据分区 · 参考资料 --------- ...
Spark学习之键值对（pair RDD）操作（3）
Spark学习之键值对(pair RDD)操作(3) 1. 我们通常从一个RDD中提取某些字段(如代表事件时间.用户ID或者其他标识符的字段),并使用这些字段为pair RDD操作中的键. 2. 创建 ...
5.1 RDD编程
一.RDD编程基础 1.创建 spark采用textFile()方法来从文件系统中加载数据创建RDD,该方法把文件的URL作为参数,这个URL可以是: 本地文件系统的地址分布式文件系统HDFS的地址 ...
spark RDD编程，scala版本
1.RDD介绍: RDD,弹性分布式数据集,即分布式的元素集合.在spark中,对所有数据的操作不外乎是创建RDD.转化已有的RDD以及调用RDD操作进行求值.在这一切的背后,Spark会自动 ...
02、体验Spark shell下RDD编程
02.体验Spark shell下RDD编程 1.Spark RDD介绍 RDD是Resilient Distributed Dataset,中文翻译是弹性分布式数据集.该类是Spark是核心类成员之 ...

随机推荐

PHP连接Navicat For Mysql并取得数据
Navicat For Mysql中新建数据库数据库中新建表保存表表中添加数据打开ide,输入以下php代码,使用localhost打开该php文件 <?php // ip地址.用户名. ...
201871010111-刘佳华《面向对象程序设计（java）》第十周学习总结
201871010111-刘佳华<面向对象程序设计(java)>第十周学习总结实验八异常.断言与日志实验时间 2019-11-1 1.实验目的与要求 (1) 掌握java异常处理技术 ...
MySQL学习笔记7——约束
约束约束 *约束是添加在列上的,用来约束列的! 1.主键约束(唯一标识) ***非空*** ***唯一*** ***被引用*** *当表的某一列被指定为主键后,该列就不能为空,不能有重复值出现. * ...
第一次作业--Numpy练习
1.创建一个边界值为1而内部都是0的数组,图例如下:[提示:]解此题可以先把所有值都设置为1,这是大正方形:其次,把边界除外小正方形全部设置为0.本题用到numpy的切片原理.多维数组同样遵循x[st ...
【BZOJ3171】[TJOI2013] 循环格（网络流）
点此看题面大致题意: 给你一个循环格,每个格子有一个方向.问你至少修改多少格子,才能使从每个格子出发都能回到原格子. 建图这是道网络流题目,主要就是考虑如何建图. 我们可以把每个点拆成两个点,一个 ...
震惊！CCF改名为中国沙雕化学学会！！！
震惊!中国沙雕计算机学会要改名中国沙雕化学学会??? Ak元素据传,CCF,发现了一种新元素,元素符号暂命名为为Ak,中文名称暂未命名,据说是第250号元素. Ak 元素的发现珂学家在一个叫洛谷的 ...
LeetCode1——两数之和
最近在家拧三阶魔方,把初级的玩法掌握了,也就是可以还原六个面了,速度不快,但是也很兴奋.三阶魔方的初级玩法按照套路拧就可以了,每一步需要完成的任务,该步骤转动的方法基本都是固定的,而且变化也并不是特别 ...
app版本升级的测试点
移动端版本更新升级是一个比较重要的功能点,主要分为强制更新和非强制更新. 1.强制更新需要测试的点有: 1)强制升级是否可以升级成功从老版本的包升级到新版版的包是否可以升级成功. 2)升级后的数据是 ...
Vue.js 源码分析(二十九) 高级应用 transition-group组件详解
对于过度动画如果要同时渲染整个列表时,可以使用transition-group组件. transition-group组件的props和transition组件类似,不同点是transition-gr ...
C# NPOI Excel
using System;using System.Collections.Generic;using System.Linq;using System.Text;using System.Threa ...

5.2 RDD编程---键值对RDD