第1章 RDD概述 1.1 什么是RDD RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象.代码中是一个抽象类,它代表一个不可变.可分区.里面的元素可并行计算的集合. 1.2 RDD的属性 1) 一组分区(Partition),即数据集的基本组成单位; 2) 一个计算每个分区的函数; 3) RDD之间的依赖关系; 4) 一个Partitioner,即RDD的分片函数; 5) 一个列表,存储存取每个Partition的优先位置(p…