SparkSQL采用Spark on Hive模式,hive只负责数据存储,Spark负责对sql命令解析执行. SparkSQL基于Dataset实现,Dataset是一个分布式数据容器,Dataset中同时存储原始数据和元数据(schema) Dataset的底层封装了RDD,Row类型的RDD就是Dataset< Row >,DataFrame Dataset数据源包括:json,JDBC,hive,parquet,hdfs,hbase,avro... API 自带API Dataset…