一.DataFrame概述 在Spark SQL中,DataFrame就是它的数据抽象,对DataFrame进行转换操作. DataFrame的推出,让Spark具备了处理大规模结构化数据的能力,不仅比原有的RDD转化方式更加简单易用,而且获得了更高的计算性能Spark能够轻松实现从MySQL到DataFrame的转化,并且支持SQL查询. RDD是分布式的Java对象的集合,但是,对象内部结构对于RDD而言却是不可知的: DataFrame是一种以RDD为基础的分布式数据集,提供了详细的结构信