Spark 配置整理

Spark 的配置有很多，这里一方面总结一下官方文档中的内容，一方面将网上查到的资料中用到的针对特定问题的配置整理一下。

先看一下官网的配置：http://spark.apache.org/docs/latest/configuration.html

spark 配置可分为三层： spark properties、environment variables、还有logging

spark properties 是由用户自己设置的，在任务中通过 SparkConf 类设置：

val conf = new SparkConf()
.setMaster("local")
.setAppName("CountingSheep")
.set("spark.executor.memory", "1g")val sc = new SparkContext(conf)

或者 你可以通过提交命令设置，这个时候 SparkConf 对象就不设置相关配置：

./bin/spark-submit --name "My app" --master local[4] --conf spark.shuffle.spill=false
--conf "spark.executor.extraJavaOptions=-XX:+PrintGCDetails -XX:+PrintGCTimeStamps" myApp.jar

在提交作业的时候能设置哪些配置呢？可以通过 bin/spark-submit --help 查看

spark-submit 还会加载 conf/spark-defaults.conf 中的配置

spark.master spark://5.6.7.8:7077
spark.executor.memory 512m
spark.eventLog.enabled true
spark.serializer org.apache.spark.serializer.KryoSerializer

如何查看已经配置的配置项？
http://Spark-master:ui-port/history/application-id/environment/
需要关注的一些设置：

spark.executor.memory 默认 512M，设置executor 的 jvm的内存大小

spark.executor.extraJavaOptions 额外的jvm设置，比如说gc策略，但是这里不能设置 jvm 的内存大小

spark.executor.extraLibraryPath 设置额外的executor运行lib目录

spark.shuffle.consolidateFiles 默认 false ，如果设置成true，能够整合shuffle阶段产生的中间文件，当reduce任务比较多的时候能提高性能

spark.shuffle.spill 默认true，与下面的配置配合使用，用来限制shuffle阶段，reduce占用内存的大小，如果超过内存限制就将数据刷到磁盘

spark.shuffle.memoryFraction 默认 0.2，如果上面的配置设置为true，shuffle阶段的内存占用总的内存的比例，如果超过这个比例，就将数据存到磁盘上。如果经常将数据刷到磁盘，可以将这个比例提高。

spark.shuffle.spill.compress 默认为true，shuffle阶段将中间结果刷入磁盘是否压缩

spark.shuffle.compress 默认为true，shuffle阶段中间结果是否压缩，这两种压缩都是使用的：spark.io.compression.codec 压缩算法

spark.shuffle.file.buffer.kb 默认32，每一个在内存中的shuffle file的大小，不把中间文件都刷到磁盘，可以减少对磁盘的seek和系统调用

spark.reducer.maxMbInFlight 默认48，对于reduce端，默认的会有5个线程负责拉取shuffle的中间结果，这5个线程分享这48M的内存的缓冲空间。如果内存不太大，最好设置的小一点。

spark.shuffle.manager 默认HASH，表示使用hash-based shuffle 算法，对于spark1.1版本，可以使用SORT，sort-based shuffle

spark.eventLog.enabled 默认false，记录spark events，当application运行结束，可用于重建 web ui

spark.eventLog.dir 默认 /tmp/spark-events，如果spark.eventLog.enabled 为true，用来存放event log的地址，可以设置成hdfs的目录

spark.io.compression.codec 默认 snappy，spark用到的压缩地方统一的压缩算法，三种可选配置：org.apache.spark.io.LZ4CompressionCodec,org.apache.spark.io.LZFCompressionCodec,
org.apache.spark.io.SnappyCompressionCodec

spark.default.parallelism 不同的模式使用的默认值不同，一般情况默认为2，使用到shuffle的任务，比如groupByKey、reduceByKey，如果用户没有设置并行度，则使用这个配置的默认并行度
spark.akka.frameSize 默认10，单位兆，akka传递消息的最大值，如果你的任务需要将比较大的结果传给driver，可以提高这个值，比如说在比较大的数据集上调用.collect()

spark.akka.threads 默认4，用于akka通信的线程数，如果集群比较大，机器内核比较多，可以增大这个值

spark.task.cpus 默认1，每个task分配的cpu

spark.task.maxFailures 默认4，task重试的次数

spark.scheduler.mode 默认FIFO，同一个SparkContext提交的jobs之间使用的调度策略，可以设置成FAIR

spark.locality.wait 默认3000，单位毫秒，为了起一个data local 的任务可以等待的时间。

spark.scheduler.revive.interval 默认 1000，单位毫秒，调度器激活task运行的时间间隔

对于在YARN集群上运行spark任务，还有一些特殊的配置需要注意：

spark.yarn.submit.file.replication 默认3，提交到yarn上的任务所需要的jar或者文件的副本数

spark.yarn.preserve.staging.files 默认false，如果设成true，将在任务运行完保存spark相关文件，比如 spark jar，app jar

spark.yarn.executor.memoryOverhead 默认384，单位兆，executor 分配的jvm内存，显然有点小

spark.yarn.driver.memoryOverhead 默认384，单位兆，driver的内存，也有点小

spark.yarn.jar 放spark jar文件的路径，当提交spark任务到yarn的时候，会将spark的jar和app的jar拷贝到hdfs的app的目录中，但是每一个任务都会用到spark的jar或者一些共用的jar包，所以，把这些共用jar包放到一个公共的位置，这样就省的每个任务都提交一次。例如：hdfs://some/path

Spark 配置整理的更多相关文章

【Spark学习】Apache Spark配置
Spark版本:1.1.1 本文系从官方文档翻译而来,转载请尊重译者的工作,注明以下链接: http://www.cnblogs.com/zhangningbo/p/4137969.html Spar ...
Spark配置&启动脚本分析
本文档基于Spark2.0,对spark启动脚本进行分析. date:2016/8/3 author:wangxl Spark配置&启动脚本分析我们主要关注3类文件,配置文件,启动脚本文件以 ...
spark2.2.1安装、pycharm连接spark配置
一.单机版本Spark安装 Win10下安装Spark2.2.1 1. 工具准备 JDK 8u161 with NetBeans 8.2: http://www.oracle.com/technetw ...
Spark 配置参数
SparkConfiguration 这一章节来看看 Spark的相关配置. 并非仅仅能够应用于 SparkStreaming, 而是对于 Spark的各种类型都有支持. 各个不同. 其中中文参考链接 ...
SSH（struts+spring+hibernate）常用配置整理
SSH(struts+spring+hibernate)常用配置整理 web.xml配置 <?xml version="1.0" encoding="UTF-8&q ...
Spark配置参数详解
以下是整理的Spark中的一些配置参数,官方文档请参考Spark Configuration. Spark提供三个位置用来配置系统: Spark属性:控制大部分的应用程序参数,可以用SparkConf ...
Code First 关系配置整理
之前EF一直有性能问题以及使用便利性问题, 终于到了EF6有了Migrations之后, 小弟也决定加入EF阵营了. 在学习FluentAPI配置关系的时候, 发现网上的好几个教程实际上博主自己都没有 ...
[bigdata] Spark RDD整理
1. RDD是什么RDD:Spark的核心概念是RDD (resilient distributed dataset),指的是一个只读的,可分区的弹性分布式数据集,这个数据集的全部或部分可以缓存在内存 ...
Spark配置参数调优
1．配置多个executor 在项目中,由于数据量为几百万甚至千万级别,如果一个executor装载的对象过多,会导致GC很慢.项目中,我们使一个worker节点执行app时启动多个executor, ...

随机推荐

使用gRPC搭建Server端与Client端
gRPC简介 gRPC是一种RPC框架技术,采用Protocal Buffers(协议缓存) 作为其接口定义的语言(就是Proto来写接口)和基础的消息交换格式. 在gRPC中,客户端应用程序可以直接 ...
编译出arm Android环境下的C++可执行文件
要想编译出arm环境的C++可执行文件主要就是利用交叉编译器进行编译.编译过程本身都大同小异. 1.安装交叉编译器,交叉编译器的安装方法大致有下面几种: A.debian/ubuntu 系统可以直接输 ...
[原创]内网SSH密码爆破工具sshcrack(配合Cscan批量弱口令检测)
0x000 前言 sshcrack是一个命令行下的SSH密码爆破工具,适用于内渗中SSH密码检测当然也可用于外网SSH密码爆破,支持Windows/Linux,其它系统未测.Tip1 0x001 目 ...
HTTP之间的区别和特性
一. Http 简介 Http,学名超文本传输协议它理解起来并不复杂,平时并不起眼,但经常使用; 前后端交互,多数依赖于http协议,重要性看个人理解,我不敢使用个人认为不掌握的技术; 二. HTT ...
mySQL多表查询与事务
一.范式 1. 什么是范式 1.1 什么是范式范式:设置一个科学的.规范的数据库,需要满足的一些规则 1.2 有哪些范式共有:6大范式第1范式:1NF 满足最基本的要求第2范式:2NF 在1N ...
sed命令用法
Sed 简介 sed 是一种新型的,非交互式的编辑器.它能执行与编辑器 vi 和 ex 相同的编辑任务.sed 编辑器没有提供交互式使用方式,使用者只能在命令行输入编辑命令.指定文件名,然后在屏幕上查 ...
洛谷 P1908 逆序对(归并排序解法)
树状数组解法:https://www.cnblogs.com/lipeiyi520/p/10846927.html 题目描述猫猫TOM和小老鼠JERRY最近又较量上了,但是毕竟都是成年人,他们已经不 ...
Codeforces Round #565 (Div. 3) C. Lose it!
链接: https://codeforces.com/contest/1176/problem/C 题意: You are given an array a consisting of n integ ...
MySQL数据库（3）
外键的变种(三种关系),数据的增删改,单表查询,多表查询一.外键的变种(三种关系) 本节重点: 如何找出两张表之间的关系表的三种关系一.介绍因为有foreign key的约束,使得两张表形成了 ...
丝滑顺畅:使用CSS3获取60FPS动画
原文链接: Smooth as Butter: Achieving 60 FPS Animations with CSS3 在移动端使用动画元素是很容易的. 如果你能遵循我们的这里的提示, 在移动端适 ...

Spark 配置整理

Spark 配置整理的更多相关文章

随机推荐

热门专题