目录 基本概念 官方文档 概述 含义 RDD出现的原因 五大属性 以单词统计为例,一张图熟悉RDD当中的五大属性 解构图 RDD弹性 RDD特点 分区 只读 依赖 缓存 checkpoint 基本概念 官方文档 介绍RDD的官方说明:http://spark.apache.org/docs/latest/rdd-programming-guide.html 概述 含义 RDD (Resilient Distributed Dataset) 叫做 弹性分布式数据集,是Spark中最基本的数据抽象,…
基于数据集的处理:从物理存储上加载数据,然后操作数据,然后写入物理存储设备.比如Hadoop的MapReduce.        缺点:1.不适合大量的迭代  2. 交互式查询  3. 不能复用曾经的结果或中间计算结果 基于工作集的处理:如Spark的RDD.RDD具有如下的弹性: 1. 自动的进行内存和磁盘数据存储的切换           2. 基于Lineage的高效容错           3. Task如果失败会自动进行特定次数的重试           4. Stage如果失败会自动…
弹性分布式数据集(Resilient Distributed Dataset,RDD) RDD是Spark一开始就提供的主要API,从根本上来说,一个RDD就是你的数据的一个不可变的分布式元素集合,在集群中跨节点分布,可以通过若干提供了转换和处理的底层API进行并行处理.每个RDD都被分为多个分区,这些分区运行在集群不同的节点上. RDD支持两种类型的操作,转化操作(transform)和行动操作(action).转化操作会有一个RDD生成一个新的RDD,行动操作则要计算出来一个结果.spark…
*以下内容由<Spark快速大数据分析>整理所得. 读书笔记的第二部分是讲RDD.RDD 其实就是分布式的元素集合.在 Spark 中,对数据的所有操作不外乎创建RDD.转化已有RDD以及调用RDD操作进行求值.而在这一切背后,Spark 会自动将RDD中的数据分发到集群上,并将操作并行化执行. 一.创建RDD 二.操作RDD 1. 普通RDD转化操作 2. Pair RDD转化操作 3. 普通RDD行动操作 4. Pair RDD行动操作 一.创建RDD 创建RDD两种方式: (1) 读取外…
1. RDD是什么RDD:Spark的核心概念是RDD (resilient distributed dataset),指的是一个只读的,可分区的弹性分布式数据集,这个数据集的全部或部分可以缓存在内存中,在多次计算间可重复使用. 2. 为什么会产生RDD? (1)传统的MapReduce虽然具有自动容错.平衡负载和可拓展性的优点,但是其最大缺点是采用非循环式的数据流模型,使得在迭代计算式中要进行大量的磁盘IO操作.RDD正是解决这一缺点的抽象方法. (2)RDD是一种有容错机制的特殊集合,可以分…
1. 什么是RDD RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变.可分区.里面的元素可并行计算的集合.RDD具有数据流模型的特点:自动容错,位置感知性调度和可伸缩性.RDD允许用户在执行多个查询时显式地将工作集缓存在内存中,后续的查询能够重用工作集,这极大地提升了查询速度. 2. RDD的属性 1)  A list of partitions 一组分片(Partition),即数据集的基本组成单位.对于RD…
总结: 1.RDD是一个Java对象的集合.RDD的优点是更面向对象,代码更容易理解.但在需要在集群中传输数据时需要为每个对象保留数据及结构信息,这会导致数据的冗余,同时这会导致大量的GC. 2.DataFrame是在1.3引入的,它包含数据与schema2部分信息,其中数据就是真正的数据,而不是一个java对象.它不容易理解,同时对java支持不好,还有一个缺点是非强类型,这会导致部分错误在运行时才会发现.优点是数据不需要加载到一个java对象,减少GC,大大优化了数据在集群间传播与本地序列化…
1.spark是什么 快速.通用.可扩展的分布式计算引擎. 2. 弹性分布式数据集RDD RDD(Resilient Distributed Dataset),是Spark中最基本的数据抽象结构,表示一个不可变.可分区.里面元素可以并行计算的集合.RDD具有数据流模型的特点:自动容错.位置感知性调度和可伸缩性.RDD允许用户在执行多个查询时显式地将工作集缓存在内存中,后续的查询能够重用工作集,这极大地提升了查询速度. RDD的属性 一组分片(Partition),即数据集的基本组成单位.对于RD…
Spark的核心RDD (Resilient Distributed Datasets弹性分布式数据集)  原文链接:http://www.cnblogs.com/yjd_hycf_space/p/7681585.html 铺垫 在hadoop中一个独立的计算,例如在一个迭代过程中,除可复制的文件系统(HDFS)外没有提供其他存储的概念,这就导致在网络上进行数据复制而增加了大量的消耗,而对于两个的MapReduce作业之间数据共享只有一个办法,就是将其写到一个稳定的外部存储系统,如分布式文件系统…
Spark的核心RDD Resilient Distributed Datasets(弹性分布式数据集)   Spark运行原理与RDD理论 Spark与MapReduce对比,MapReduce的计算和迭代是基于磁盘的,而Spark的迭代和计算是尽量基于内存,只有在内存空间不能容纳计算结果时才将溢出的部分数据缓冲到磁盘存储,因此Spark是将内存与磁盘结合起来使用的一种架构,它既可以适应超大型的批量离线数据集处理(因为它可以基于磁盘),也可以适应基于实时的流数据分析计算(因为它可以基于内存迭代…