1.从同一个数据源尽量只创建一个rdd,后续业务逻辑复用该rdd2.如果要对某个rdd进行多次的transformation或action操作,应当持久化该rdd3.从数据源读取到rdd后,要尽早的进行filter操作以过滤掉无用的数据4.尽量避免使用shffle算子,使用shuffle时,应尽量减少shuffle的数据量,可以用reducebykey 取代 groupbykey5.熟悉算子机制,尽量使用高性能算子6.对于打的变量,尽可能的使用广播机制7.尽可能使用kryo优化序列化性能8.提高…