一.大数据架构 并发计算: 并行计算: 很少会说并发计算,一般都是说并行计算,但是并行计算用的是并发技术.并发更偏向于底层.并发通常指的是单机上的并发运行,通过多线程来实现.而并行计算的范围更广,他是散布到集群上的分布式计算. Spark内存计算比hadoop快100倍,磁盘计算快10倍,在worker节点主要基于内存进行计算,避免了不必要的磁盘io. 二.Spark模块 Spark是没有分布式存储的,必须借助hadoop的HDFS等.资源管理工具自带的是Standalone也支持hadoop的…