Spark 是离线数据处理的一种大数据技术,和Flick相比数据处理要延后,因为Flick是实时数据处理,而Spark需要先读取数据到内存. Spark的库是基于Scala写的,虽然Scala也是运行在jvm上的,但是Spark提供的Java api的能力和原生api并不完全相同,据说执行效率也有微弱差异. 但是scala语法比较难,编码也不如Java规范,用的人和企业越来越少.为了更好推广和更好交接,我们也选择Java API. 环境搭建 官方下载 maven依赖进来 安装hadoop 小试…