1.executor lost /java oom 通常是由于单个task内存占用过多,可以观察是哪个阶段挂的,如果类似groupbykey,可以看看是否有数据倾斜现象 如果不是,可以repartition手动增加partitioin数,减少单个task的资源消耗 有cache操作,partition数需要调的更大 2.看不到log,可能是关闭了eventlog 3.hadoop慢节点,可以考虑配置推测执行,但是需要合理设置阈值 4.spark.max.creatFiles 1000 最后输出使