Spark的分布式架构 如我们所知,spark之所以强大,除了强大的数据处理功能,另一个优势就在于良好的分布式架构.举一个例子在Spark实战--寻找5亿次访问中,访问次数最多的人中,我用四个spark节点去尝试寻找5亿次访问中,次数最频繁的ID.这一个过程耗时竟然超过40分钟,对一个程序来说,40分钟出结果这简直就是难以忍耐.但是在大数据处理中,这又是理所当然的.当然实际中不可能允许自己的程序在简单的仅处理五亿次访问中耗费如此之大的时间,因此考虑了分布式架构.(PS:当然处理5亿次请求的示例中