Spark参数优化

a. 提升Spark运行

spark.sql.adaptive.enabled=true

spark的自适应执行,启动Adaptive Execution

spark.dynamicAllocation.enabled=true

开启动态资源分配，Spark可以根据当前作业的负载动态申请和释放资源

spark.dynamicAllocation.maxExecutors=${numbers}

开启动态资源分配后，同一时刻，最多可申请的executor个数。task较多时，可适当调大此参数，保证task能够并发执行完成，缩短作业执行时间

spark.dynamicAllocation.minExecutors=3

某一时刻executor的最小个数。平台默认设置为3，即在任何时刻，作业都会保持至少有3个及以上的executor存活，保证任务可以迅速调度

spark.sql.shuffle.partitions

JOIN或聚合等需要shuffle的操作时，设定从mapper端写出的partition个数。类似于MR中的reducer，当partition多时，产生的文件也会多

spark.sql.adaptive.shuffle.targetPostShuffleInputSize=67108864

当mapper端两个partition的数据合并后数据量小于targetPostShuffleInputSize时，Spark会将两个partition进行合并到一个reducer端进行处理。默认64m

spark.sql.adaptive.minNumPostShufflePartitions=50

当spark.sql.adaptive.enabled参数开启后，有时会导致很多分区被合并，为了防止分区过少而影响性能。设置该参数，保障至少的shuffle分区数

spark.hadoop.mapreduce.input.fileinputformat.split.maxsize=134217728

控制在ORC切分时stripe的合并处理。当几个stripe的大小大于设定值时，会合并到一个task中处理。适当调小该值以增大读ORC表的并发【最小大小的控制参数

spark.hadoop.mapreduce.input.fileinputformat.split.minsize】

b. 提升Executor执行能力

spark.executor.memory=4g

用于缓存数据、代码执行的堆内存以及JVM运行时需要的内存。设置过小容易导致OOM，而实际执行中需要的大小可以通过文件来估算

spark.yarn.executor.memoryOverhead=1024

Spark运行还需要一些堆外内存，直接向系统申请，如数据传输时的netty等

spark.executor.cores=4

单个executor上可以同时运行的task数，该参数决定了一个executor上可以并行执行几个task。几个task共享同一个executor的内存（spark.executor.memory+spark.yarn.executor.memoryOverhead）。适当提高该参数的值，可以有效增加程序的并发度，是作业执行的更快。不过同时也增加executor内存压力，容易出现OOM

c. 其他参数

参数名称	当前	说明/含义
spark.sql.autoBroadcastJoinThreshold	64mb	使用BroadcastJoin时候表的大小阈值(-1 则取消使用)
spark.sql.broadcastTimeout	300s	BroadcastJoin的等待超时的时间
spark.default.parallelism	24	指定每个stage默认的并行task数量，处理RDD时才会起作用，对Spark SQL的无效
spark.speculation	true	执行任务的推测执行。这意味着如果一个或多个任务在一个阶段中运行缓慢，它们将被重新启动
spark.speculation.quantile		在特定阶段启用推测之前必须完成的部分任务。推荐0.75/0.95
spark.kryoserializer.buffer.max	64m	Kryo串行缓冲区的最大允许大小（以MiB为单位）。它必须大于您尝试序列化的任何对象，并且必须小于2048m。如果在Kryo中收到“超出缓冲区限制”异常，请增加此值。推荐1024m
spark.sql.hive.metastorePartitionPruning	true
spark.sql.hive.caseSensitiveInferenceMode	INFER_AND_SAVE	不太了解，推荐使用NEVER_INFER
spark.sql.optimizer.metadataOnly	true	启用仅使用表的元数据的元数据查询优化来生成分区列，而不是表扫描

d. 常见问题

OOM内存溢出

Spark根据 spark.executor.memory+spark.yarn.executor.memoryOverhead的值向RM申请一个容器，当executor运行时使用的内存超过这个限制时，会被yarn kill掉。失败信息为：Container killed by YARN for exceeding memory limits. XXX of YYY physical memory used. Consider boosting spark.yarn.executor.memoryOverhead。合理的调整这两个参数

小文件数过多

当spark执行结束后，如果生成较多的小文件可以通过hive对文件进行合并。

rc/orc文件： ALTER TABLE table_name CONCATENATE ;

其他文件：指定输出文件大小并重写表(insert overwrite table _name_new select * from table_name)

spark结果与hive结果不一致

数据文件字段中存在特殊字符带来的错行错列，剔除特殊字符，如： regexp_replace(name,'\n|\r|\t|\r\n|\u0001', '')

spark为了优化读取parquet格式文件，使用自己的解析方式读取数据。将该方式置为falseset spark.sql.hive.convertMetastoreParquet=false

hive中对于null和空值与spark的差异。已知的办法是调整hive的参数：serialization.null.format 如：alter table table_name set serdeproperties('serialization.null.format' = '');

作者：别停下思考

链接：https://www.jianshu.com/p/4449dce2acc7

来源：简书

著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

Spark参数优化的更多相关文章

【转载】Spark性能优化指南——高级篇
前言数据倾斜调优调优概述数据倾斜发生时的现象数据倾斜发生的原理如何定位导致数据倾斜的代码查看导致数据倾斜的key的数据分布情况数据倾斜的解决方案解决方案一:使用Hive ETL预处理数 ...
【转载】 Spark性能优化指南——基础篇
转自:http://tech.meituan.com/spark-tuning-basic.html?from=timeline 前言开发调优调优概述原则一:避免创建重复的RDD 原则二:尽可能 ...
【转】【技术博客】Spark性能优化指南——高级篇
http://mp.weixin.qq.com/s?__biz=MjM5NjQ5MTI5OA==&mid=2651745207&idx=1&sn=3d70d59cede236e ...
【转】Spark性能优化指南——基础篇
http://mp.weixin.qq.com/s?__biz=MjM5NDMwNjMzNA==&mid=2651805828&idx=1&sn=2f413828d1fdc6a ...
spark核心优化详解
大家好!转眼又到了经验分享的时间了.吼吼,我这里没有摘要也没有引言,只有单纯的经验分享,请见谅哦! 言归正传,目前在大数据领域能够提供的核心计算的工具,如离线计算hadoop生态圈的mr计算模型,以及 ...
Spark性能优化指南——高级篇（转载）
前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为<Spark性能优化指南>的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问 ...
Spark性能优化指南——基础篇（转载）
前言在大数据计算领域,Spark已经成为了越来越流行.越来越受欢迎的计算平台之一.Spark的功能涵盖了大数据领域的离线批处理.SQL类处理.流式/实时计算.机器学习.图计算等各种不同类型的计算操作 ...
Spark性能优化指南-高级篇
转自https://tech.meituan.com/spark-tuning-pro.html,感谢原作者的贡献前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作 ...
Spark性能优化指南——基础篇
本文转自:http://tech.meituan.com/spark-tuning-basic.html 感谢原作者前言在大数据计算领域,Spark已经成为了越来越流行.越来越受欢迎的计算平台之一 ...

随机推荐

闭关苦修半年，最终靠着这份面试题，我成功拿到了阿里的offer！
前言我大概我是从去年12月份开始看书学习,到今年的6月份,一直学到看大家的面经基本上百分之90以上都会,我就在5月份开始投简历,边面试边补充基础知识等.也是有些辛苦.终于是在前不久拿到了阿里的off ...
ABBYY FineReader 15 文档转换功能
我们平常工作的时候总会固定地只用某几个文档格式,有的人经常使用office,所以电脑内就没安装PDF阅读器,这个时候就需要文档转换器了,ABBYY FineReader 15 也能够帮助我们实现快速的 ...
Sound Forge常规功能详解
Sound Forge是一款有口皆碑的音频编辑软件,专为录音.母带处理和音频编辑开发.但是该如何使用Sound Forge呢,Sound Forge经常用到的功能有哪些呢?今天小编通过该文章给大家进行 ...
CorelDRAW绘制的优秀人物肖像插画作品
艺术创作关于作者 Dmitry Demidenko (LINEKING),1986 年出生于俄罗斯的斯帕斯克达利尼.他自幼痴迷于绘画,而且对矢量图形很有天赋.他从一家小型省立印刷公司的小设计师做起, ...
安装swoole扩展
wget https://github.com/swoole/swoole-src/archive/v1.9.3-stable.tar.gz tar -zxvf v1.9.3-stable.tar.g ...
肝了一周的 UDP 基础知识终于出来了。
我把自己以往的文章汇总成为了 Github ,欢迎各位大佬 star https://github.com/crisxuan/bestJavaer 已提交此篇文章运输层位于应用层和网络层之间,是 O ...
jmeter测试udp
jemter本身不支持udp测试,需要下载安装第三方插件,或者下载一个插件管理器(下面那个蝴蝶一样的图标),里面有各种插件可以供你下载下载链接:https://jmeter-plugins.org/ ...
⭐NES.css推荐⭐
今天发现一个有意思的CSS框架,叫NES.css 官网地址:https://nostalgic-css.github.io/NES.css/ gitHub地址:https://github.com/n ...
sentinel--初级使用篇
1.官方资料 github官网地址:https://github.com/alibaba/Sentinel wiki:https://github.com/alibaba/Sentinel/wiki/ ...
【应用服务 App Service】解决无法从Azure门户SSH登录问题
问题描述中国区的Azure App Service(应用服务)已经支持创建Docker并选择Linux环境.在使用中,我们可以继续通过kudu站点的方式登录查看站点的一些日志及部署文件.它的登录方式 ...

Spark参数优化

Spark参数优化的更多相关文章

随机推荐

热门专题