1.什么是RDD? 上一章讲了Spark提交作业的过程,这一章我们要讲RDD.简单的讲,RDD就是Spark的input,知道input是啥吧,就是输入的数据. RDD的全名是Resilient Distributed Dataset,意思是容错的分布式数据集,每一个RDD都会有5个特征: 1.有一个分片列表.就是能被切分,和hadoop一样的,能够切分的数据才能并行计算. 2.有一个函数计算每一个分片,这里指的是下面会提到的compute函数. 3.对其他的RDD的依赖列表,依赖还具体分为宽依…