调试Spark应用性能的时候,首先应该理解spark是如何工作以及你的spark应用需要何种类型的资源.比如说,机器学习相关的spark应用更依赖cpu计算能力,ETL应用更依赖I/O能力,以此进行有针对的优化和配置. 硬件配置 正确的硬件配置要根据实际的情况来看.可以从以下几个方面来考虑: 存储系统 由于Spark作业一般都需要从外部存储系统里面读入数据,所以一个重要的原则就是就近计算.直接在HDFS的集群上运行Spark应用,并将Spark应用提交给YARN.实在不行的话,也要保持和HDFS…