1.RDD常用操作2.Transformations算子3.Actions算子4.SparkRDD案例实战 1.Transformations算子(lazy) 含义:create a new dataset from an existing on 从已经存在的创建一个新的数据集 RDDA---------transformation----------->RDDB map:map(func) 将func函数作用到数据集的每一个元素上,生成一个新的分布式的 数据集返回 例子:1 data = [1
1. 广播变量 1.1 补充知识(来源:https://blog.csdn.net/huashetianzu/article/details/7821674) 之所以存在reduce side join,是因为在map阶段不能获取所有需要的join字段,即:同一个key对应的字段可能位于不同map中.Reduce side join是非常低效的,因为shuffle阶段要进行大量的数据传输.Map side join是针对以下场景进行的优化:两个待连接表中,有一个表非常大,而另一个表非常小,以至
RDD Opertions transformations:create a new dataset from an existing one RDDA --> RDDB actions: return a value to the driver program after running a computation on the dataset For example, map is a transformation that passe
RDD RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象.代码中是一个抽象类,它代表一个弹性的.不可变.可分区.里面的元素可并行计算的集合. A Resilient Distributed Dataset (RDD), the basic abstraction in Spark. Represents an immutable:可类比String,它也是不可变的,但是可有很多方法,如切分... 1. RDD的属性 每