01.Spark安装与配置 1.hadoop回顾 Hadoop是分布式计算引擎,含有四大模块,common.hdfs.mapreduce和yarn. 2.并发和并行 并发通常指针对单个节点的应对多个请求的能力,是单一节点上计算能力的衡量,并行通常针对集群来讲,是利用多个节点进行分布式协同作业,我们称之为并行计算. 3.Spark 快如闪电集群计算引擎,应用于大规模数据处理快速通用引擎,使用内存计算. Speed 内存计算速度是hadoop的100倍以上,硬盘计算是Hadoop是10倍以上,Spa