在大数据领域,只有深挖数据科学领域,走在学术前沿,才能在底层算法和模型方面走在前面,从而占据领先地位. Spark的这种学术基因,使得它从一开始就在大数据领域建立了一定优势.无论是性能,还是方案的统一性,对比传统的Hadoop,优势都非常明显.Spark提供的基于RDD的一体化解决方案,将MapReduce.Streaming.SQL.Machine Learning.Graph Processing等模型统一到一个平台下,并以一致的API公开,并提供相同的部署方案,使得Spark的工程应用领域