SparkSql作为Spark的结构化数据处理模块,提供了非常强大的API,让分析人员用一次,就会为之倾倒,为之着迷,为之至死不渝.在内部,SparkSQL使用额外结构信息来执行额外的优化.在外部,可以使用SQL和DataSet 的API与之交互.本文笔者将带你走进SparkSql的世界,领略SparkSql之诸多妙处. 一.DataSet和DataFrame 当使用编程语言对结构化数据进行操作时候,SparkSql中返回的数据类型是DataSet/DataFrame,因此开篇笔者就先对这两种数…