在spark中,RDD.DataFrame.Dataset是最常用的数据类型,本博文给出笔者在使用的过程中体会到的区别和各自的优势 共性: 1.RDD.DataFrame.Dataset全都是spark平台下的分布式弹性数据集,为处理超大型数据提供便利 2.三者都有惰性机制,在进行创建.转换,如map方法时,不会立即执行,只有在遇到Action如foreach时,三者才会开始遍历运算,计算情况下,如果代码里面有创建.转换,但是后面没有在Action中使用对应的结果,在执行时会被直接跳过,如 va…