对性能消耗的原理详解 在分布式系统中,数据分布在不同的节点上,每一个节点计算一部份数据,如果不对各个节点上独立的部份进行汇聚的话,我们计算不到最终的结果.我们需要利用分布式来发挥Spark本身并行计算的能力,而后续又需要计算各节点上最终的结果,所以需要把数据汇聚集中,这就会导致Shuffle,这也是说为什么Shuffle 是分布式不可避免的命运.因为Shuffle 的过程中会产生大量的磁盘 IO.网络 IO.以及压缩.解压缩.序列化和反序列化的操作,这一系列的操作对性能都是一个很大的负担. 调优…