dataframe以RDD为基础的分布式数据集,与RDD的区别是,带有Schema元数据,即DF所表示的二维表数据集的每一列带有名称和类型,好处:精简代码:提升执行效率:减少数据读取; 如果不配置spark.deploy.recoveryMode选项为ZOOKEEPER,那么集群的所有运行数据在Master重启是都会丢失 spark工作机制 用户在client端提交作业后,会由Driver运行main方法并创建spark context上下文. 执行add算子,形成dag图输入dagschedu…