Spark学习之RDD编程（2）

1. Spark中的RDD是一个不可变的分布式对象集合。

2. 在Spark中数据的操作不外乎创建RDD、转化已有的RDD以及调用RDD操作进行求值。

3. 创建RDD:1）读取一个外部数据集2）在驱动器程序里分发驱动器程序中的对象集合。

4. RDD支持的操作：

1）转换操作，由一个RDD生成一个新的RDD。

2）行动操作，对RDD进行计算结果，并把结果返回到驱动器程序中，或者把结果存储到外部存储系统（如HDFS）。

5. Spark程序或者shell会话都会按如下方式工作：

1）从外部数据创建出输入RDD。

2）使用诸如filter()这样的转化操作对RDD进行转化，以定义一个新的RDD。

3）告诉Spark对需要被重用的中间结果RDD执行persist()操作。

4）使用行动操作 （例如count()和first()等)来触发一次并行计算，Spark会对计算进行优化后在执行。

6. 创建RDD

快速创建RDD，把程序中一个已有的集合传给SparkContext的parallelize()方法，不过这种方法除了开发原型和测试时，这种方式用的并不多。

Python中的parallelize()方法

    lines = sc.parallelize(["pandas","i like pandas"])

Scala中的parallelize()方法

    val lines = sc.parallelize(List("pandas","i like pandas"))

Java中的parallelize()方法

    JavaRDD<String> lines = sc.parallelize(Arrays.asList("pandas","i like pandas"))

7. 惰性求值

RDD的转化操作都是惰性求值的。

8. 向Spark传递函数

8.1 Python

传递比较短的函数，使用lambda表达式来传递；也可以传递顶层函数或是定义的局部函数。

8.2 Scala，可以定义的内联函数、方法的引用或静态方法传递给Spark，就行Scala的其他函数式API一样。

8.3 Java，函数需要作为实现了Spark的org.apache.spark.api.java.function包中的任一函数接口的对象来传递。

9. 常见的转化操作和行动操作

9.1 针对个元素的转化操作

flatmap()       对每个输入元素生成多个输出元素。

map()           接受一个函数，把这个函数用于RDD中的每个元素，将函数的返回结果作为结果RDD中的对应元素的。返回的类型不必和输入类型相同。

filter()        接受一个函数，并将RDD中满足该函数的元素放入新RDD中返回。

distinct()      去重

sample(withReplacement,fraction,[seed])         对RDD采样，以及是否替换

9.2 伪集合操作

合并和相交要求RDD数据类型相同。

(不需混洗)union()           生成一个包含两个RDD中所有元素的RDD

(需要混洗)intersection()    求两个RDD共同的元素的RDD

(需要混洗)subtract()        移除一个RDD中的内容

(需要混洗)cartesian)()      与另一个RDD的笛卡尔积

Spark学习之RDD编程（2）的更多相关文章

Spark学习之RDD编程总结
Spark 对数据的核心抽象——弹性分布式数据集(Resilient Distributed Dataset,简称 RDD).RDD 其实就是分布式的元素集合.在 Spark 中,对数据的所有操作不外 ...
Spark学习笔记——RDD编程
1.RDD——弹性分布式数据集(Resilient Distributed Dataset) RDD是一个分布式的元素集合,在Spark中,对数据的操作就是创建RDD.转换已有的RDD和调用RDD操作 ...
Spark学习(2) RDD编程
什么是RDD RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变.可分区.弹性.里面的元素可并行计算的集合 RDD允 ...
02、体验Spark shell下RDD编程
02.体验Spark shell下RDD编程 1.Spark RDD介绍 RDD是Resilient Distributed Dataset,中文翻译是弹性分布式数据集.该类是Spark是核心类成员之 ...
Spark学习之RDD
RDD概述什么是RDD RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变.可分区.里面的元素可并行计算的集合 ...
spark实验(四)--RDD编程(1)
一.实验目的 (1)熟悉 Spark 的 RDD 基本操作及键值对操作: (2)熟悉使用 RDD 编程解决实际具体问题的方法. 二.实验平台操作系统:centos6.4 Spark 版本:1.5.0 ...
Spark学习摘记 —— RDD行动操作API归纳
本文参考参考<Spark快速大数据分析>动物书中的第三章"RDD编程",前一篇文章已经概述了转化操作相关的API,本文再介绍行动操作API 和转化操作API不同的是, ...
spark 中的RDD编程 -以下基于Java api
1.RDD介绍: RDD,弹性分布式数据集,即分布式的元素集合.在spark中,对所有数据的操作不外乎是创建RDD.转化已有的RDD以及调用RDD操作进行求值.在这一切的背后,Spark会自动 ...
spark学习(10)-RDD的介绍和常用算子
RDD(弹性分布式数据集,里面并不存储真正要计算的数据,你对RDD的操作,他会在Driver端转换成Task,下发到Executor计算分散在多台集群上的数据) RDD是一个代理,你对代理进行操作,他 ...

随机推荐

Mycat集群方案收集（待实践）
先收集,后续再实践. 我想,市面上开源方案中,涉及到高可用和负载均衡的部署,无论是哪一个产品应用,都基本离不开LVS+Keepalived+HAProxy+Nginx等等. 下面是收集的教程: htt ...
laravel 邮件
本文使用qq邮箱 env邮件配置: MAIL_FROM_ADDRESS = 17******92@qq.com MAIL_FROM_NAME = listen~ MAIL_DRIVER=smtp MA ...
JDBC基本应用
首先我们来看一下JDBC操作数据的核心: Connection 应用程序与数据库之间的桥梁数据库驱动程序是构建桥梁的基石和材料 DriverManager类是基石和材料的管理员 Statement ...
IOS-Storyboard控制器切换之TabBar(3)
TabBar与Push相反,他以底部为导航以头部为内容区域,如图: 打开storyboard文件,创建一个UITabBarController文件到画板中,默认带了2个 UIViewControll ...
python 【目录】
python[目录] python[第一篇]初识python python[第二篇]python基本数据类型 python[第三篇]python函数基础
Python开发【第*篇】【Socket网络编程】
1.Socket socket通常也称作"套接字",用于描述IP地址和端口,是一个通信链的句柄,应用程序通常通过"套接字"向网络发出请求或者应答网络请求. so ...
Flex 页面启动事件
事件启动顺序容器Preinitialize=>子组件preinitialize=>子组件initialize=>childAdd=>initialize =>子组件cr ...
【Silverlight】Bing Maps学习系列（八）：使用Bing Maps Silverlight Control加载自己部署的Google Maps
[Silverlight]Bing Maps学习系列(八):使用Bing Maps Silverlight Control加载自己部署的Google Maps 上个月微软必应地图(Bing Maps) ...
xubuntu 17.04 和 iphone 6互传文件方法——使用libimobiledevice就可以像u盘一样操作文件了
I need to preface this by saying I'm also new to Linux, but I've got it working I think. The instruc ...
python 之filter（）函数
filter()函数是 Python 内置的另一个有用的高阶函数,filter()函数接收一个函数 f 和一个list,这个函数 f 的作用是对每个元素进行判断,返回 True或 False,filt ...

Spark学习之RDD编程（2）

Spark学习之RDD编程（2）

1. Spark中的RDD是一个不可变的分布式对象集合。

2. 在Spark中数据的操作不外乎创建RDD、转化已有的RDD以及调用RDD操作进行求值。

3. 创建RDD:1）读取一个外部数据集2）在驱动器程序里分发驱动器程序中的对象集合。

4. RDD支持的操作：

5. Spark程序或者shell会话都会按如下方式工作：

6. 创建RDD

7. 惰性求值

8. 向Spark传递函数

9. 常见的转化操作和行动操作

Spark学习之RDD编程（2）的更多相关文章

随机推荐

热门专题