Spark学习之键值对（pair RDD）操作（3）

1. 我们通常从一个RDD中提取某些字段（如代表事件时间、用户ID或者其他标识符的字段），并使用这些字段为pair RDD操作中的键。

2. 创建pair RDD

1）读取本身就是键值对的数据

2）一个普通的RDD通过map()转为pair RDD，传递的函数需要返回键值对。

Python中使用第一个单词作为键创建出一个pair RDD

    pairs = lines.amp(lambda x: (x.split(" ")[0],x))

Scala中使用第一个单词作为键创建出一个pair RDD

    val pairs = lines.map(x=>(x.split(" ")(0),x))

3. pair RDD的转化操作

pair RDD可以使用所有标准RDD上的可能的转化操作，还有其他如下

reduceBykey(func)       合并具有相同键的值

groupByke()             对具有相同键的值进行分组

combineByKey(           使用不同的的返回类型合并具有相同键的值

createCombiner,

mergeValue,

mergCombiners,

partitioner)

mapValues(func)         对pair RDD中的每个值应用一个函数而不改变键

flatMapValues(func)     对pair RDD中的每个值应用一个返回迭代器的函数，

                        然后对返回的每个元素都生成一个对应原键的键值对记录。

                        通常用于符号化。

keys()                  返回一个仅包含键的RDD

values()                返回一个仅包含值的RDD

sortByKey()             返回一个根据键排序的RDD

4. 针对两个pair RDD转化操作

subtractByKey           删掉RDD中键与other RDD中的键相同的元素

join                    对两个RDD进行内连接

rightOuterJoin          对两个RDD进行连接操作，确保第一个RDD的键必须存在（右外连接）

leftOuterJoin           对两个RDD进行连接操作，确保第二个RDD的键必须存在（左外连接）

cogroup                 将两个RDD中拥有相同键的数据分组到一起

5. pair RDD的行动操作

countByKey()            对每个键对应的元素分别计数

collectAsMap()          将结果以映射表的形式返回，以便查询

lookup(key)             返回给定键对应的所有值

6. 数据分区

控制数据分布以获得最少的网络传输可以极大地提升整体性能。

只有当数据集多次在诸如连这种基于键的操作中使用时，分区才有帮助。

Scala自定义分区方式

    val sc = new SparkContext(...)

    val userData = sc.sequenceFile(UserID,UserInfo)("hdfs://...")

                     .partitionBy(new HashPartitioner(100))

                     .persist()

Spark学习之键值对（pair RDD）操作（3）的更多相关文章

Spark学习之键值对操作总结
键值对 RDD 是 Spark 中许多操作所需要的常见数据类型.键值对 RDD 通常用来进行聚合计算.我们一般要先通过一些初始 ETL(抽取.转化.装载)操作来将数据转化为键值对形式.键值对 RDD ...
Spark学习笔记——键值对操作
键值对 RDD是 Spark 中许多操作所需要的常见数据类型键值对 RDD 通常用来进行聚合计算.我们一般要先通过一些初始 ETL(抽取.转化.装载)操作来将数据转化为键值对形式. Spark 为包 ...
Spark中的键值对操作-scala
1.PairRDD介绍 Spark为包含键值对类型的RDD提供了一些专有的操作.这些RDD被称为PairRDD.PairRDD提供了并行操作各个键或跨节点重新进行数据分组的操作接口.例如,Pa ...
Spark中的键值对操作
1.PairRDD介绍 Spark为包含键值对类型的RDD提供了一些专有的操作.这些RDD被称为PairRDD.PairRDD提供了并行操作各个键或跨节点重新进行数据分组的操作接口.例如,Pa ...
Spark基础脚本入门实践3:Pair RDD开发
Pair RDD转化操作 val rdd = sc.parallelize(List((1,2),(3,4),(3,6))) //reduceByKey,通过key来做合并val r1 = rdd.r ...
Spark学习之路（四）—— RDD常用算子详解
一.Transformation spark常用的Transformation算子如下表: Transformation算子 Meaning(含义) map(func) 对原RDD中每个元素运用 fu ...
spark学习（六）Java版RDD基本的基本操作
1.map算子 private static void map() { //创建SparkConf SparkConf conf = new SparkConf() .setAppName(" ...
Spark 键值对RDD操作
键值对的RDD操作与基本RDD操作一样,只是操作的元素由基本类型改为二元组. 概述键值对RDD是Spark操作中最常用的RDD,它是很多程序的构成要素,因为他们提供了并行操作各个键或跨界点重新进行数 ...
Spark学习笔记3：键值对操作
键值对RDD通常用来进行聚合计算,Spark为包含键值对类型的RDD提供了一些专有的操作.这些RDD被称为pair RDD.pair RDD提供了并行操作各个键或跨节点重新进行数据分组的操作接口. S ...

随机推荐

cn_windows_10_multiple_editions_version_1607_updated_jul_2016_x64
ed2k://|file|cn_windows_10_multiple_editions_version_1607_updated_jul_2016_x64_dvd_9056935.iso|43471 ...
test markdown 写博客
欢迎使用 Cmd Markdown 编辑阅读器我们理解您需要更便捷更高效的工具记录思想,整理笔记.知识,并将其中承载的价值传播给他人,Cmd Markdown 是我们给出的答案 -- 我们为记录思想 ...
用Visual Studio 2010 打开Visual Studio 2013 （C#专用）
1.更改.sln 1)将Microsoft Visual Studio Solution File, Format Version 12.00 改成11.00 2)将 # Visual Studi ...
CF # 369 D2 D、E
D,只要抓住每个点只有一个出度,那么图就能分成几个部分,而且可以发现,一个部分最多一个环. #include <iostream> #include <cstdio> #inc ...
NA路由②
CISCO常见的命令语法: R(c)#ip route network {mask} address/interface : 参数 {}可选项 ...
C# .NET想要另存一个项目，sln文件丢了怎么办
如下图所示,我想要另存一个工程,把 V4.4整个的项目另存为V4.5,我可以把解决方案文件(.sln)改名字,但是我没法把文件夹改名字,改了打开sln就说找不到. 很简单的一个思路是反正sln是多 ...
Linux Centos7 Apache 訪问 You don't have permission to access / on this server.
折腾了非常久,今天才找到了最正确的答案.感言真不easy. 百度出来的99%都是採集的内容.全都是错误的. You don't have permission to access / on this ...
html5 虚拟键盘弹出挡住底部的输入框解决方案
问题描述: 我们使用 h5 做移动网站开发时,如果文本框在页面的下方,当输入信息弹出的软键盘会将输入框挡住(Android 会有这个问题,IOS会自动将整个页面上移),IOS中软键盘关闭后,页面上移的 ...
Matplotlib作图基础
折线图 import matplotlib.pylab as pylab import numpy as npy x=[1,2,3,4,8] y=[5,7,2,1,5] #折线图 pylab.plot ...
MVC 用户权限HttpContext.User.IsInRole()
这几天在用MVC做一个项目,用到了HttpContext.User.IsInRole() 这个方法,但是每次当我用的时候,HttpContext.User.IsInRole(“Admin”) 返回的永 ...

Spark学习之键值对（pair RDD）操作（3）

Spark学习之键值对（pair RDD）操作（3）

1. 我们通常从一个RDD中提取某些字段（如代表事件时间、用户ID或者其他标识符的字段），并使用这些字段为pair RDD操作中的键。

2. 创建pair RDD

3. pair RDD的转化操作

4. 针对两个pair RDD转化操作

5. pair RDD的行动操作

6. 数据分区

Spark学习之键值对（pair RDD）操作（3）的更多相关文章

随机推荐

热门专题