每一个 spark job 根据 shuffle 划分 stage,每个 stage 形成一个或者多个 taskSet,了解了每个 stage 需要运行多少个 task,有助于我们优化 spark 运行 task 数 首先需要了解以下概念: RDD,弹性分布式数据集,多个 partition: split,切片,HDFS 上文件为什么要切片,如何切片,参考我的博客 hadoop 的 Split: textFlie 分区,textFile 如何对一个文件分区,参考我的博客 RDD认知与创建: 创建