Spark是基于内存的分布式计算引擎,以处理的高效和稳定著称.然而在实际的应用开发过程中,开发者还是会遇到种种问题,其中一大类就是和性能相关.在本文中,笔者将结合自身实践,谈谈如何尽可能地提高应用程序性能. 分布式计算引擎在调优方面有四个主要关注方向,分别是CPU.内存.网络开销和I/O,其具体调优目标如下: 提高CPU利用率. 避免OOM. 降低网络开销. 减少I/O操作. 第1章 数据倾斜 数据倾斜意味着某一个或某几个Partition中的数据量特别的大,这意味着完成针对这几个Partiti…