什么是RDD

视频教程：

　　RDD是个抽象类，全称为Resilient Distributed Datasets，是一个容错的、并行的数据结构，可以让用户显式地将数据存储到磁盘和内存中，并能控制数据的分区。同时，RDD还提供了一组丰富的操作来操作这些数据，诸如map、flatMap、filter等转换操作，除此之外，RDD还提供了诸如join、groupBy、reduceByKey等更为方便的操作，以支持常见的数据运算。但实际上继承RDD的派生类一般只要实现两个方法：

1、getPartitions()用来告知怎么将input分片；

2、compute()用来输出每个Partition被函数处理的一个单元）；

RDD的特点：

1、它是在集群节点上的不可变的、已分区的集合对象。

2、通过并行转换的方式来创建如（map, filter, join, etc）。

3、失败自动重建。

4、可以控制存储级别（内存、磁盘等）来进行重用。

5、必须是可序列化的。

6、是静态类型的。

RDD的好处

1、RDD只能从持久存储或通过Transformation操作产生，相比于分布式共享内存（DSM）可以更高效实现容错，对于丢失部分数据分区只需根据它的lineage就可重新计算出来，而不需要做特定的Checkpoint。(　RDD实现了基于Lineage的容错机制。RDD的转换关系，构成了compute chain，可以把这个compute chain认为是RDD之间演化的Lineage。在部分计算结果丢失时，只需要根据这个Lineage重算即可。)

2、RDD的不变性，可以实现类似Hadoop MapReduce的推测式执行。

3、RDD的数据分区特性，可以通过数据的本地性来提高性能，这与Hadoop MapReduce是一样的。

4、RDD都是可序列化的，在内存不足时可自动降级为磁盘存储，把RDD存储于磁盘上，这时性能会有大的下降但不会差于现在的MapReduce。

RDD的存储与分区

1、用户可以选择不同的存储级别存储RDD以便重用。

2、当前RDD默认是存储于内存，但当内存不足时，RDD会spill到disk。

3、RDD在需要进行分区把数据分布于集群中时会根据每条记录Key进行分区（如Hash 分区），以此保证两个数据集在Join时能高效。

RDD的内部表示

在RDD的内部实现中每个RDD都可以使用5个方面的特性来表示：

1、分区列表（数据块列表）

2、计算每个分片的函数（根据父RDD计算出此RDD）

3、对父RDD的依赖列表

4、对key-value RDD的Partitioner(可选)

5、每个数据分片的预定义地址列表(如HDFS上的数据块的地址)(可选)

RDD的创建方式：

1、从Hadoop文件系统（或与Hadoop兼容的其它存储系统）输入（例如HDFS）创建。

2、从父RDD转换得到新RDD。

3、通过parallelize将单机数据创建为分布式RDD。

（五）什么是RDD-Java&Python版Spark的更多相关文章

（一）Spark简介-Java&Python版Spark
Spark简介视频教程: 1.优酷 2.YouTube 简介: Spark是加州大学伯克利分校AMP实验室,开发的通用内存并行计算框架.Spark在2013年6月进入Apache成为孵化项目,8个月 ...
（八）map，filter，flatMap算子-Java&Python版Spark
map,filter,flatMap算子视频教程: 1.优酷 2.YouTube 1.map map是将源JavaRDD的一个一个元素的传入call方法,并经过算法后一个一个的返回从而生成一个新的J ...
（四）Spark集群搭建-Java&Python版Spark
Spark集群搭建视频教程 1.优酷 2.YouTube 安装scala环境下载地址http://www.scala-lang.org/download/ 上传scala-2.10.5.tgz到m ...
（九）groupByKey,reduceByKey,sortByKey算子-Java&Python版Spark
groupByKey,reduceByKey,sortByKey算子视频教程: 1.优酷 2. YouTube 1.groupByKey groupByKey是对每个key进行合并操作,但只生成一个 ...
（七）Transformation和action详解-Java&Python版Spark
Transformation和action详解视频教程: 1.优酷 2.YouTube 什么是算子算子是RDD中定义的函数,可以对RDD中的数据进行转换和操作. 算子分类: 具体: 1.Value ...
（三）Spark-Hadoop集群搭建-Java&Python版Spark
Spark-Hadoop集群搭建视频教程: 1.优酷 2.YouTube 配置java 启动ftp [root@master ~]# /etc/init.d/vsftpd restart 关闭 vs ...
（二）Spark-Linux环境准备-Java&Python版Spark
Spark-Linux环境准备视频教程: 1.优酷 2.YouTube 硬软件环境 1.虚拟机:VMware Workstation 12 2.虚拟机操作系统:RedHat5u4,单核,1G内存,2 ...
（六）Spark-Eclipse开发环境WordCount-Java&Python版Spark
Spark-Eclipse开发环境WordCount 视频教程: 1.优酷 2.YouTube 安装eclipse 解压eclipse-jee-mars-2-win32-x86_64.zip Java ...
【原】Learning Spark (Python版) 学习笔记(三)----工作原理、调优与Spark SQL
周末的任务是更新Learning Spark系列第三篇,以为自己写不完了,但为了改正拖延症,还是得完成给自己定的任务啊 = =.这三章主要讲Spark的运行过程(本地+集群),性能调优以及Spark ...

随机推荐

【Java并发编程实战】-----“J.U.C”：CountDownlatch
上篇博文([Java并发编程实战]-----"J.U.C":CyclicBarrier)LZ介绍了CyclicBarrier.CyclicBarrier所描述的是"允许一 ...
C++ std::queue
std::queue template <class T, class Container = deque<T> > class queue; FIFO queue queue ...
AngularJs之四
一,数据循环:特别要注意作用域使用ng-repeat指令. <div ng-app="myApp" ng-controller="myCtrl"> ...
MVC中的AOP
一. AOP是什么? AOP(Aspect-Oriented Programming),面向切面编程,看着是跟OOP(面向对象编程)挺相近的,但实际上又有什么区别呢?OOP具有封装,继承,多态等东西来 ...
backup2：数据库还原
数据库还原的操作,分两步进行:第一步,验证(verify)备份文件:第二步,根据备份策略还原数据库: 参考<backup1:开始数据库备份>,备份策略是: 一周一次完整备份,一天一次差异备 ...
解析大型.NET ERP系统单据编码功能实现
单据编码是ERP系统中必备的功能,用于生成各种单据的流水号,常常借助于日期时间等字符来生成一个唯一的单据号码.从软件的角度来说,就是为生成数据表的主键值(参考编号),从用户的角度来说,就是给业务单据制 ...
css3圆环百分比，菜单栏定位导航
前段时间,社区个人中心改版,看了下设计图,当时隐约感觉到有两个地方(圆环百分比,菜单栏定位导航)比较麻烦.设计图大致如下: 首先看圆环百分比,网上的做法大致分两种,一种是用了CSS3中的transfo ...
【转】c#、wpf 字符串，color，brush之间的转换
转自:http://www.cnblogs.com/wj-love/archive/2012/09/14/2685281.html 1,将#3C3C3C 赋给background this.selec ...
使用MATLAB对图像处理的几种方法（上）
实验一图像的滤波处理一.实验目的使用MATLAB处理图像,掌握均值滤波器和加权均值滤波器的使用,对比两种滤波器对图像处理结果及系统自带函数和自定义函数性能的比较,体会不同大小的掩模对图像细节的影响 ...
分布式服务协调员zookeeper - 应用场景和监控
zookeeper在分布式系统中作为协调员的角色,可应用于Leader选举.分布式锁.配置管理等服务的实现.以下我们从zookeeper提供的API.应用场景和监控三方面学习和了解zookeeper( ...

（五）什么是RDD-Java&Python版Spark