Spark 配置整理
Spark 的配置有很多,这里一方面总结一下官方文档中的内容,一方面将网上查到的资料中用到的针对特定问题的配置整理一下。
先看一下官网的配置:http://spark.apache.org/docs/latest/configuration.html
- val conf = new SparkConf()
- .setMaster("local")
- .setAppName("CountingSheep")
- .set("spark.executor.memory", "1g")val sc = new SparkContext(conf)
或者 你可以通过提交命令设置,这个时候 SparkConf 对象就不设置相关配置:
- ./bin/spark-submit --name "My app" --master local[4] --conf spark.shuffle.spill=false
- --conf "spark.executor.extraJavaOptions=-XX:+PrintGCDetails -XX:+PrintGCTimeStamps" myApp.jar
在提交作业的时候能设置哪些配置呢?可以通过 bin/spark-submit --help 查看
spark-submit 还会加载 conf/spark-defaults.conf 中的配置
- spark.master spark://5.6.7.8:7077
- spark.executor.memory 512m
- spark.eventLog.enabled true
- spark.serializer org.apache.spark.serializer.KryoSerializer
如何查看已经配置的配置项?
http://Spark-master:ui-port/history/application-id/environment/
需要关注的一些设置:
spark.executor.memory 默认 512M,设置executor 的 jvm的内存大小
spark.executor.extraJavaOptions 额外的jvm设置,比如说gc策略,但是这里不能设置 jvm 的内存大小
spark.executor.extraLibraryPath 设置额外的executor运行lib目录
spark.shuffle.consolidateFiles 默认 false , 如果设置成true,能够整合shuffle阶段产生的中间文件,当reduce任务比较多的时候能提高性能
spark.shuffle.spill 默认true,与下面的配置配合使用,用来限制shuffle阶段,reduce占用内存的大小,如果超过内存限制就将数据刷到磁盘
spark.shuffle.memoryFraction 默认 0.2,如果上面的配置设置为true,shuffle阶段的内存占用总的内存的比例,如果超过这个比例,就将数据存到磁盘上。如果经常将数据刷到磁盘,可以将这个比例提高。
spark.shuffle.spill.compress 默认为true,shuffle阶段将中间结果刷入磁盘是否压缩
spark.shuffle.compress 默认为true,shuffle阶段中间结果是否压缩,这两种压缩都是使用的:spark.io.compression.codec 压缩算法
spark.shuffle.file.buffer.kb 默认32,每一个在内存中的shuffle file的大小,不把中间文件都刷到磁盘,可以减少对磁盘的seek和系统调用
spark.reducer.maxMbInFlight 默认48,对于reduce端,默认的会有5个线程负责拉取shuffle的中间结果,这5个线程分享这48M的内存的缓冲空间。如果内存不太大,最好设置的小一点。
spark.shuffle.manager 默认HASH,表示使用hash-based shuffle 算法,对于spark1.1版本,可以使用SORT,sort-based shuffle
spark.eventLog.enabled 默认false,记录spark events,当application运行结束,可用于重建 web ui
spark.eventLog.dir 默认 /tmp/spark-events, 如果spark.eventLog.enabled 为true,用来存放event log的地址,可以设置成hdfs的目录
spark.io.compression.codec 默认 snappy,spark用到的压缩地方统一的压缩算法,三种可选配置:org.apache.spark.io.LZ4CompressionCodec,org.apache.spark.io.LZFCompressionCodec,
org.apache.spark.io.SnappyCompressionCodec
spark.default.parallelism 不同的模式使用的默认值不同,一般情况默认为2,使用到shuffle的任务,比如groupByKey、reduceByKey,如果用户没有设置并行度,则使用这个配置的默认并行度
spark.akka.frameSize 默认10,单位兆,akka传递消息的最大值,如果你的任务需要将比较大的结果传给driver,可以提高这个值,比如说在比较大的数据集上调用.collect()
spark.akka.threads 默认4,用于akka通信的线程数,如果集群比较大,机器内核比较多,可以增大这个值
spark.task.cpus 默认1,每个task分配的cpu
spark.task.maxFailures 默认4,task重试的次数
spark.scheduler.mode 默认FIFO,同一个SparkContext提交的jobs之间使用的调度策略,可以设置成FAIR
spark.locality.wait 默认3000,单位毫秒,为了起一个data local 的任务可以等待的时间。
spark.scheduler.revive.interval 默认 1000,单位毫秒,调度器激活task运行的时间间隔
对于在YARN集群上运行spark任务,还有一些特殊的配置需要注意:
spark.yarn.submit.file.replication 默认3,提交到yarn上的任务所需要的jar或者文件的副本数
spark.yarn.preserve.staging.files 默认false,如果设成true,将在任务运行完保存spark相关文件,比如 spark jar,app jar
spark.yarn.executor.memoryOverhead 默认384,单位兆,executor 分配的jvm内存,显然有点小
spark.yarn.driver.memoryOverhead 默认384,单位兆,driver的内存,也有点小
spark.yarn.jar 放spark jar文件的路径,当提交spark任务到yarn的时候,会将spark的jar和app的jar拷贝到hdfs的app的目录中,但是每一个任务都会用到spark的jar或者一些共用的jar包,所以,把这些共用jar包放到一个公共的位置,这样就省的每个任务都提交一次。例如:hdfs://some/path
Spark 配置整理的更多相关文章
- 【Spark学习】Apache Spark配置
Spark版本:1.1.1 本文系从官方文档翻译而来,转载请尊重译者的工作,注明以下链接: http://www.cnblogs.com/zhangningbo/p/4137969.html Spar ...
- Spark配置&启动脚本分析
本文档基于Spark2.0,对spark启动脚本进行分析. date:2016/8/3 author:wangxl Spark配置&启动脚本分析 我们主要关注3类文件,配置文件,启动脚本文件以 ...
- spark2.2.1安装、pycharm连接spark配置
一.单机版本Spark安装 Win10下安装Spark2.2.1 1. 工具准备 JDK 8u161 with NetBeans 8.2: http://www.oracle.com/technetw ...
- Spark 配置参数
SparkConfiguration 这一章节来看看 Spark的相关配置. 并非仅仅能够应用于 SparkStreaming, 而是对于 Spark的各种类型都有支持. 各个不同. 其中中文参考链接 ...
- SSH(struts+spring+hibernate)常用配置整理
SSH(struts+spring+hibernate)常用配置整理 web.xml配置 <?xml version="1.0" encoding="UTF-8&q ...
- Spark配置参数详解
以下是整理的Spark中的一些配置参数,官方文档请参考Spark Configuration. Spark提供三个位置用来配置系统: Spark属性:控制大部分的应用程序参数,可以用SparkConf ...
- Code First 关系配置整理
之前EF一直有性能问题以及使用便利性问题, 终于到了EF6有了Migrations之后, 小弟也决定加入EF阵营了. 在学习FluentAPI配置关系的时候, 发现网上的好几个教程实际上博主自己都没有 ...
- [bigdata] Spark RDD整理
1. RDD是什么RDD:Spark的核心概念是RDD (resilient distributed dataset),指的是一个只读的,可分区的弹性分布式数据集,这个数据集的全部或部分可以缓存在内存 ...
- Spark配置参数调优
1.配置多个executor 在项目中,由于数据量为几百万甚至千万级别,如果一个executor装载的对象过多,会导致GC很慢.项目中,我们使一个worker节点执行app时启动多个executor, ...
随机推荐
- 使用gRPC搭建Server端与Client端
gRPC简介 gRPC是一种RPC框架技术,采用Protocal Buffers(协议缓存) 作为其接口定义的语言(就是Proto来写接口)和基础的消息交换格式. 在gRPC中,客户端应用程序可以直接 ...
- 编译出arm Android环境下的C++可执行文件
要想编译出arm环境的C++可执行文件主要就是利用交叉编译器进行编译.编译过程本身都大同小异. 1.安装交叉编译器,交叉编译器的安装方法大致有下面几种: A.debian/ubuntu 系统可以直接输 ...
- [原创]内网SSH密码爆破工具sshcrack(配合Cscan批量弱口令检测)
0x000 前言 sshcrack是一个命令行下的SSH密码爆破工具,适用于内渗中SSH密码检测 当然也可用于外网SSH密码爆破,支持Windows/Linux,其它系统未测.Tip1 0x001 目 ...
- HTTP之间的区别和特性
一. Http 简介 Http,学名超文本传输协议 它理解起来并不复杂,平时并不起眼,但经常使用; 前后端交互,多数依赖于http协议,重要性看个人理解,我不敢使用个人认为不掌握的技术; 二. HTT ...
- mySQL多表查询与事务
一.范式 1. 什么是范式 1.1 什么是范式 范式:设置一个科学的.规范的数据库,需要满足的一些规则 1.2 有哪些范式 共有:6大范式 第1范式:1NF 满足最基本的要求 第2范式:2NF 在1N ...
- sed命令用法
Sed 简介 sed 是一种新型的,非交互式的编辑器.它能执行与编辑器 vi 和 ex 相同的编辑任务.sed 编辑器没有提供交互式使用方式,使用者只能在命令行输入编辑命令.指定文件名,然后在屏幕上查 ...
- 洛谷 P1908 逆序对(归并排序解法)
树状数组解法:https://www.cnblogs.com/lipeiyi520/p/10846927.html 题目描述 猫猫TOM和小老鼠JERRY最近又较量上了,但是毕竟都是成年人,他们已经不 ...
- Codeforces Round #565 (Div. 3) C. Lose it!
链接: https://codeforces.com/contest/1176/problem/C 题意: You are given an array a consisting of n integ ...
- MySQL数据库(3)
外键的变种(三种关系),数据的增删改,单表查询,多表查询 一.外键的变种(三种关系) 本节重点: 如何找出两张表之间的关系 表的三种关系 一.介绍 因为有foreign key的约束,使得两张表形成了 ...
- 丝滑顺畅:使用CSS3获取60FPS动画
原文链接: Smooth as Butter: Achieving 60 FPS Animations with CSS3 在移动端使用动画元素是很容易的. 如果你能遵循我们的这里的提示, 在移动端适 ...