一.背景 如果在持久化RDD的时候,持久化了大量的数据,那么Java虚拟机的垃圾回收就可能成为一个性能瓶颈.因为Java虚拟机会定期进行垃圾回收,此时就会追踪所有的java对象, 并且在垃圾回收时,找到那些已经不在使用的对象,然后清理旧的对象,来给新的对象腾出内存空间. 垃圾回收的性能开销,是跟内存中的对象的数量,成正比的.所以,对于垃圾回收的性能问题,首先要做的就是,使用更高效的数据结构,比如array和string:其次就是在持久化rdd时, 使用序列化的持久化级别,而且用Kryo序列化类库