Spark SQL是一个用来处理结构化数据的Spark组件,前身是shark,但是shark过多的依赖于hive如采用hive的语法解析器.查询优化器等,制约了Spark各个组件之间的相互集成,因此Spark SQL应运而生. Spark SQL在汲取了shark诸多优势如内存列存储.兼容hive等基础上,做了重新的构造,因此也摆脱了对hive的依赖,但同时兼容hive.除了采取内存列存储优化性能,还引入了字节码生成技术.CBO和RBO对查询等进行动态评估获取最优逻辑计划.物理计划执行等.基于这