1.RDD[(k,v)] join()优化,join之前会对两个RDD的key做hash,通过网络把相同hash值的数据传到同一个节点,因此对多次join的RDD 做预分区与持久化可提高效率. map()操作会失去父RDD的信息,因为key值有可能发生改变,但 mapValues().flatMapValues()不会.多父RDD已分区,默认采取第一个父RDD的分区方式 cogroup() .groupWith() . join() . leftOuterJoin() . rightOuterJ