Spark SQL是Spark中用于结构化数据处理的组件. Spark SQL可以从Hive中读取数据. 执行结果是Dataset/DataFrame. DataFrame是一个分布式数据容器.然而DataFrame更像传统数据库的二维表格,除了数据以外,还掌握数据的结构信息,即schema.同时,与Hive类似,DataFrame也支持嵌套数据类型(struct.array和map).从API易用性的角度上 看,DataFrame API提供的是一套高层的关系操作,比函数式的RDD API要更…