概叙: 在任何分布式系统中,序列化都是扮演着一个重要的角色的.如果使用的序列化技术,在执行序列化操作的时候很慢,或者是序列化后的数据还是很大,那么会让分布式应用程序的性能下降很多.所以,进行Spark性能优化的第一步,就是进行序列化的性能优化. Spark自身默认就会在一些地方对数据进行序列化,比如Shuffle.还有就是,如果我们的算子函数使用到了外部的数据(比如Java内置类型,或者自定义类型),那么也需要让其可序列化. 而Spark自身对于序列化的便捷性和性能进行了一个取舍和权衡.默认,S…