1.RDD的局限性 RDD仅表示数据集,RDD没有元数据,也就是说没有字段语义定义. RDD需要用户自己优化程序,对程序员要求较高. 从不同数据源读取数据相对困难. 合并多个数据源中的数据也较困难. 2 DataFrame和Dataset (1)DataFrame 由于RDD的局限性,Spark产生了DataFrame. DataFrame=RDD+Schema 其中Schema是就是元数据,是语义描述信息. 在Spark1.3之前,DataFrame被称为SchemaRDD.以行为单位构成的分…