Google工程师将MapReduce定义为一般的数据处理流程.一直以来不能完全理解MapReduce的真义,为什么MapReduce可以“一般”? 最近在研究Spark,抛开Spark核心的内存计算,这里只关心Spark做了什么.在Spark上的所有工作都是围绕数据集进行,包括创建新的数据集.对数据集的转换.对数据集的归约.对于实际应用中的数据处理流程,Spark的这些似乎足够了,足够形成一套一般的数据处理流程.的确,Spark以数据集为操作对象,而可以不论数据集中数据的类型——很朴素的思想!…