一.DataFrame:有列名的RDD 首先,我们知道SparkSQL的目的是用sql语句去操作RDD,和Hive类似.SparkSQL的核心结构是DataFrame,如果我们知道RDD里面的字段,也知道里面的数据类型,就好比关系型数据库里面的一张表.那么我们就可以写SQL,所以其实这儿我们是不能用面向对象的思维去编程的.我们最好的方式就是把抽象成为一张表,然后去用SQL语句去操作它. DataFrame的存储方式:它采用的存储是类似于数据库的表的形式进行存储的.一个数据表有几部分组成:1.数据…