首先我们从宏观的视角来窥视下大数据技术框架: 图1 大数据技术框架 从图1可以看出,数据源-数据收集-数据存储-资源管理,这是我们进行数据分析和处理的基本;图中的计算框架包括批处理.交互式分析和流处理: 批处理计算:对时间没有严格要求,吞吐率要高 交互式计算:支持类SQL语言,快速进行数据分析 流式计算:数据像流水一样进入系统,需实时对其处理和分析 不同的计算框架的实时性要求是逐渐增强的,spark在整个大数据技术框架中属于第4层计算框架,spark能很好地满足这三种计算要求,这也是spark这…