val list = List(1,2,3) var rdd = sc.parallelize(list) rdd.partitions.size 通过调用SparkContext的parallelize方法,在一个已经存在的Scala集合上创建的(一个Seq对象). 集合的对象将会被拷贝,创建出一个可以被并行操作的分布式数据集. 一旦分布式数据集(distData)被创建好,它们将可以被并行操作. 例如,我们可以调用distData.reduce(lambda a, b: a + b)来将数组…