概述 冠状病毒来临,宅在家中给国家做贡献之际,写一篇随笔记录SparkSQL的学习笔记,目的有二,一是记录整理之前的知识作为备忘录,二是分享技术,大家共同进步,有问题也希望大家不吝赐教.总体而言,大数据主要包含三种操作:长时间运行的批量数据处理:交互式运行的数据查询:实时数据流处理.sparkSQL特点:数据兼容,不仅兼容hive,还可以从rdd,parquet文件,json文件获取数据,支持从rdbms获取数据.性能优化,采用内存列式存储.自定义序列化器等方式提升性能.组件扩展,sql的语法解