触发Spark scheduler的入口是调用者代码中的action操作,如groupByKey,first,take,foreach等操作.这些action操作最终会调用SparkContext.runJob方法,进而调用DAGScheduler.runJob方法,从而被spark所调度使用. 用户在编写Spark程序时,每次调用transformation操作,都会生成一个新的rdd,rdd主要包含了对之前的rdd的依赖关系,新rdd的分区规则和分区个数.聚合方法等.Spark通过这种方法最…