http://spark.apache.org/docs/1.6.1/tuning.html1) 代码优化 a. 对于多次使用的RDD,进行数据持久化操作(eg: cache.persist) b. 如果对同一个份数据进行操作,那么尽量公用一个RDD c. 优先使用reduceByKey和aggregateByKey取代groupByKey 原因:前两个API存在combiner,可以降低数据量:groupByKey可能存在OOM异常 d. 对于Executor使用到Driver中的变量的情况,…