来自官网DataFrames.DataSets.SQL,即sparkSQL模块. 通过dataframe接口,sparkSQL支持多种数据源的操作.可以把dataframe注册为临时视图,也可以通过关系转换. 1)默认格式是parquet,这是一种columnar(柱状的,按列的)的格式,按列存储(如Hadoop中). parquet载入后就是dataframe格式,而dataframe可以直接写出到parquet文件. df = spark.read.load("examples/src/ma…