1.内存优化 1.1.RDD RDD默认cache仅使用内存 可以看到使用默认cache时,四个分区只在内存中缓存了3个分区,4.4G的数据 使用kryo序列化+MEMORY_ONLY_SER 可以看到缓存了四个分区的全部数据,且只缓存了1445.8M 所以这两种缓存方式如何选择,官网建议 也就是说集群资源足够使用默认cache,资源紧张使用kryo序列化+MEMORY_ONLY_SER 1.2.DataFrame与DataSet DataSet不使用Java和Kryo序列化,它使用特殊的编码器…