在讲spark之前,不得不详细介绍一下RDD(Resilient Distributed Dataset),打开RDD的源码,一开始的介绍如此: 字面意思就是弹性分布式数据集,是spark中最基本的数据抽象,它代表一个不可变.可分区.里面的元素可并行计算的集合. Resilient:弹性的,它表示的是数据可以保存在磁盘,也可以保存在内存中 Distributed:它的数据分布式存储,并且可以做分布式的计算 Dataset:一个数据集,简单的理解为集合,用于存放数据的 事实上,关于RDD有5个特性