分区是rdd的一个属性,每个分区是一个迭代器 分区器是决定数据数据如何分区 RDD划分成许多分区分布到集群的节点上,分区的多少涉及对这个RDD进行并行计算的粒度.用户可以获取分区数和设置分区数目,默认分区数为程序分配到的CPU核数. spark中,RDD计算是以分区为单位的,而且计算函数都是在对迭代器复合,不需要保存每次计算的结果. scala> val numrdd=sc.makeRDD(1 to 10,3)numrdd: org.apache.spark.rdd.RDD[Int] = Par…