1.配置多个executor 在项目中,由于数据量为几百万甚至千万级别,如果一个executor装载的对象过多,会导致GC很慢.项目中,我们使一个worker节点执行app时启动多个executor,从而加大并发度,解决full GC慢的问题.同时,由于启动了多个exeucute,在内存与核数不变的情况下,需要调整分配给每个execute的内存数及核数. 2.配置数据序列化 Spark默认序列化方式为Java的ObjectOutputStream序列化一个对象,速度较慢,序列化产生的结果有时也比