如题所示,SparkSQL /DataFrame /Spark RDD谁快? 按照官方宣传以及大部分人的理解,SparkSQL和DataFrame虽然基于RDD,但是由于对RDD做了优化,所以性能会优于RDD. 之前一直也是这么理解和操作的,直到最近遇到了一个场景,打破了这种不太准确的认识. 某些场景下,RDD要比DataFrame快,性能有天壤之别. 需求如下: 以下两份数据求交集,结果输出url. 数据一,json格式,地址我们用path_json表示,大小10T,每一行数据格式:{"id&…