什么事sparkSQL Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用, 它是将Spark SQL转换成RDD,然后提交到集群执行,执行效率非常快 )易整合 )统一的数据访问方式 )兼容Hive )标准的数据连接 SparkSQL可以看做是一个转换层,向下对接各种不同的结构化数据源,向上提供不同的数据访问方式 RDD和Dataframe和DataSet RDD: 劣势是性能限制,它是一个JVM驻内存对象,…