在生产环境中,spark 部署方式一般都是 yarn-cluster 模式,本文针对该模式进行讲解,当然大体思路也适用于其他模式 基础概念 一个 spark 应用包含 job.stage.task 三个概念 job:以 action 方法为界,一个 action 触发一个 job stage:它是 job 的子集,以 RDD 宽依赖为界,遇到宽依赖即划分 stage task:它是 stage 的子集,以分区数来衡量,分区数多少,task 就有多少 任务调度 spark 任务从发起到执行可用下图…