RDD(弹性分布式数据集).RDD以分区中的每一行进行分布式计算.父子依赖关系. 一.RDD创建操作 1)数据集合 Val data=Array(1, 2, 3, 4, 5, 6, 7, 8, 9) Val distData = sc.parallelize(data, 3) #分区,生成RDD数据集 Val distData =sc.parallelize(1 to 10, 2) #2是并行程度,指定多少线程同时执行. distData.collect distData.take(1) sc.