总结: 1.RDD是一个Java对象的集合.RDD的优点是更面向对象,代码更容易理解.但在需要在集群中传输数据时需要为每个对象保留数据及结构信息,这会导致数据的冗余,同时这会导致大量的GC. 2.DataFrame是在1.3引入的,它包含数据与schema2部分信息,其中数据就是真正的数据,而不是一个java对象.它不容易理解,同时对java支持不好,还有一个缺点是非强类型,这会导致部分错误在运行时才会发现.优点是数据不需要加载到一个java对象,减少GC,大大优化了数据在集群间传播与本地序列化…