必须掌握的Spark调优技术点

在利用Spark处理数据时，如果数据量不大，那么Spark的默认配置基本就能满足实际的业务场景。但是当数据量大的时候，就需要做一定的参数配置调整和优化，以保证业务的安全、稳定的运行。并且在实际优化中，要考虑不同的场景，采取不同的优化策略。

1. 合理设置微批处理时间

在SparkSreaming流式处理中，合理的设置微批处理时间（batchDuration）是非常有必要的。

如果batchDuration设置过短，会导致SparkStreaming频繁提交job。如果每个batchDuration所产生的job不能在这个时间内完成处理，就会造成job不断堆积，最终导致SparkStreaming发生阻塞，甚至程序宕掉。

需要根据不同的应用场景和硬件配置等确定，可以根据SparkStreaming的可视化监控界面，观察Total Delay等指标来进行batchDuration的调整。

2. 控制消费的最大速率

比如SparkStreaming和Kafka集成，采用direct模式时，需要设置参数spark.streaming.kafka.maxRatePerPartition以控制每个Kafka分区最大消费数。该参数默认没有上线，即Kafka当中有多少数据它就会直接全部拉出。

但在实际使用中，需要根据生产者写入Kafka的速率以及消费者本身处理数据的速度综合考虑。

同时还需要结合上面的batchDuration，使得每个partition拉取的数据，要在每个batchDuration期间顺利处理完毕，做到尽可能高的吞吐量，该参数的调整需参考可视化监控界面中的Input Rate和Processing Time。

3. 缓存反复使用的"数据集"

Spark中的RDD和SparkStreaming中的DStream，如果被反复的使用，最好利用cache或者persist算子，将"数据集"缓存起来，防止过度的调度资源造成的不必要的开销。

4. 合理的设置GC

JVM垃圾回收是非常消耗性能和时间的，尤其是stop world、full gc非常影响程序的正常运行。

关于JVM和参数配置，建议研读《JVM内存管理和垃圾回收》、《JVM垃圾回收器、内存分配与回收策略》、《内存泄漏、内存溢出和堆外内存，JVM优化配置参数》。

5. 合理设置CPU

每个executor可以占用一个或多个core，可以通过观察CPU的使用率变化来了解计算资源的使用情况。

要避免CPU的使用浪费，比如一个executor占用多个core，但是总的CPU利用率却不高。此时建议让每个executor占用相对之前较少的core，同时worker下面增加更多的executor进程来增加并行执行的executor数量，从而提高CPU利用率。同时要考虑内存消耗，毕竟一台机器运行的executor越多，每个executor的内存就越小，容易产生OOM。

6. 使用Kryo进行序列化和反序列化

Spark默认使用Java的序列化机制，但这种Java原生的序列化机制性能却比Kryo差很多。使用Kryo需要进行设置：

//设置序列化器为KryoSerializerSparkConf.set("spark.serializer","org.apache.spark.serializer.KryoSerializer")

//注册要序列化的自定义类型SparkConf.registerKryoClasses(Array(classOf[CustomClass1],classOf[CustomClass2]))

7. 使用高性能的算子

1）使用reduceByKey、aggregateByKey替代groupByKey

2）filter之后进行coalesce操作

3）使用repartitionAndSortWithinPartition

替代repartition与sort操作

4）使用mapPartition替代map

5）使用foreachPartition替代foreach

要结合实际使用场景，进行算子的替代优化。

除了上述常用调优策略，还有合理设置Spark并行度，比如参数spark.default.parallelism的设置等，所有这些都要求对Spark内核原理有深入理解，这里不再一一阐述。

关注微信公众号：大数据学习与分享，获取更对技术干货

必须掌握的Spark调优技术点的更多相关文章

【Spark调优】数据倾斜及排查
[数据倾斜及调优概述] 大数据分布式计算中一个常见的棘手问题——数据倾斜: 在进行shuffle的时候,必须将各个节点上相同的key拉取到某个节点上的一个task来进行处理,比如按照key进行聚合或j ...
Spark调优 | Spark Streaming 调优
Spark调优 | Spark Streaming 调优 1.数据序列化 2.广播大变量 3.数据处理和接收时的并行度 4.设置合理的批处理间隔 5.内存优化 5.1 内存管理 5.2优化策略 5.3 ...
【Spark学习】Apache Spark调优
Spark版本:1.1.0 本文系以开源中国社区的译文为基础,结合官方文档翻译修订而来,转载请注明以下链接: http://www.cnblogs.com/zhangningbo/p/4117981. ...
【Spark调优】提交job资源参数调优
[场景] Spark提交作业job的时候要指定该job可以使用的CPU.内存等资源参数,生产环境中,任务资源分配不足会导致该job执行中断.失败等问题,所以对Spark的job资源参数分配调优非常重要 ...
【Spark调优】大表join大表，少数key导致数据倾斜解决方案
[使用场景] 两个RDD进行join的时候,如果数据量都比较大,那么此时可以sample看下两个RDD中的key分布情况.如果出现数据倾斜,是因为其中某一个RDD中的少数几个key的数据量过大,而另一 ...
【Spark调优】小表join大表数据倾斜解决方案
[使用场景] 对RDD使用join类操作,或者是在Spark SQL中使用join语句时,而且join操作中的一个RDD或表的数据量比较小(例如几百MB或者1~2GB),比较适用此方案. [解决方案] ...
【Spark调优】Broadcast广播变量
[业务场景] 在Spark的统计开发过程中,肯定会遇到类似小维表join大业务表的场景,或者需要在算子函数中使用外部变量的场景(尤其是大变量,比如100M以上的大集合),那么此时应该使用Spark的广 ...
【Spark调优】Kryo序列化
[Java序列化与反序列化] Java序列化是指把Java对象转换为字节序列的过程:而Java反序列化是指把字节序列恢复为Java对象的过程.序列化使用场景:1.数据的持久化,通过序列化可以把数据永久 ...
【翻译】Spark 调优 (Tuning Spark) 中文版
由于Spark自己的调优guidance已经覆盖了很多很有价值的点,因此这里直接翻译一份过来.也作为一个积累. Spark 调优 (Tuning Spark) 由于大多数Spark计算任务是在内存中运 ...

随机推荐

新版本 swagger 组件中 Servers 的坑
新版本 Swashbuckle swagger 组件中 Servers 的坑 Intro 上周做了公司的项目升级,从 2.2 更新到 3.1, swagger 直接更新到了最新,swagger 用的 ...
STM32入门系列-开发工具keil5安装
主要介绍如下三部分内容: keil5软件获取 keil5安装安装STM32芯片包软件获取可以通过搜索引擎搜索关键字"KEIL5下载",找到其官方网站www.keil.com. ...
数据库本地data source
数据源表示数据库所在设备的ip地址或名称,基本上有以下几种写方法 data source = (local) data source = "127.0.0.1" data sour ...
转载：解密Redis持久化
本文内容来源于Redis作者博文,Redis作者说,他看到的所有针对Redis的讨论中,对Redis持久化的误解是最大的,于是他写了一篇长文来对Redis的持久化进行了系统性的论述.文章非常长,也很值 ...
【SpringBoot】05.SpringBoot整合Listener的两种方式
SpringBoot整合Listener的两种方式: 1.通过注解扫描完成Listener组件的注册创建一个类实现ServletContextListener (具体实现哪个Listener根据情况 ...
13 SOAP
13 SOAP SOAP(原为Simple Object Access Protocol的首字母缩写,即简单对象访问协议)是交换数据的一种协议规范,使用在计算机网络Web服务(web service) ...
cmd的基本命令
使用方法Windows键+R键输入cmd回车 Windows 系统常用小工具工具名称 cmd 命令含义计算器 calc 与 "工具名称" 相同记事本 notepad 与 & ...
php判断用户设备类型
最近做的一个需求里面希望能判断用户访问页面的设备类型,根据不同的类型去加载不同的数据和页面样式.由于技术栈是使用的php,于是考虑在php层面去做这个判断. 假设主要判断的设备有平板和手机为主,分两个 ...
GC 的认识(转) https://github.com/qcrao/Go-Questions/blob/master/GC/GC.md#1-什么是-gc有什么作用
1. 什么是 GC,有什么作用? GC,全称 Garbage Collection,即垃圾回收,是一种自动内存管理的机制. 当程序向操作系统申请的内存不再需要时,垃圾回收主动将其回收并供其他代码进行内 ...
C语言环境总结
1.虚拟内存下C语言环境 2.main函数调用 3.栈调用每次函数调用,在栈中分配一个栈帧,寄存器通过持有该栈帧的基地址,并上下偏移,访问形参和本地变量, C语言形参为一个字大小,所以通常传指针,这 ...

必须掌握的Spark调优技术点

必须掌握的Spark调优技术点的更多相关文章

随机推荐

热门专题