Spark参数配置说明

1 修改$SPARK_HOME/conf目录下的spark-defaults.conf文件

添加以下配置项

spark.sql.hive.convertMetastoreParquet false

hive.exec.compress.output false

如果spark.sql.hive.convertMetastoreParquet不设置为false，前台清单预览看到的内容为乱码。

由于parquet格式的文件内置了压缩，故输出结果不需要进行压缩，如果设置为压缩，清单下载功能异常。

2 修改$SPARK_HOME/conf目录下spark-env.sh文件，设置以下参数：

SPARK_EXECUTOR_INSTANCES=11

SPARK_EXECUTOR_CORES=2

SPARK_EXECUTOR_MEMORY=1G

SPARK_DRIVER_MEMORY=3G

根据需要配置，如果设置刚好满足所有内存，则没有多余的内存供其他task任务的执行

2.1 参数SPARK_EXECUTOR_INSTANCES

该参数决定了yarn集群中，最多能够同时启动的EXECUTOR的实例个数。Yarn中实际能够启动的最大Executors的数量会小于等于该值。如果不能确定最大能够启动的Executors数量，建议将该值先设置的足够大。（就是设置尽量大）

2.2 SPARK_EXECUTOR_CORES 该参数为设置每个EXECUTOR能够使用的CPU core的数量。

Yarn集群能够最多并行的Task数据为SPARK_EXECUTOR_INSTANCES乘以SPARK_EXECUTOR_CORES一般设置为2

也就是说如果spark_executor_instances=11 则最多并行的Task数为22

2.3 SPARK_EXECUTOR_MEMORY

该参数设置的是每个EXECUTOR分配的内存的数量。需要注意的是，该内存数量是SPARK_EXECUTOR_CORES中设置的内核数共用的内存数量。

例如上面示例中，就是2核cpu公用1G内存。

2.4 SPARK_DRIVER_MEMORY

该参数设置的是DRIVER分配的内存的大小。也就是执行start-thriftserver.sh机器上分配给thriftserver的内存大小。

3 yarn.nodemanager.resource.memory-mb

$HADOOP_HOME/etc/hadoop目录下的yarn-site.xml文件中，参数yarn.nodemanager.resource.memory-mb配置了每台机器yarn能够使用的物理内存大小，单位是MB。

如果发现集群内内存使用量明显比屋里内存小，可以修改该参数

4 spark.yarn.executor.memoryOverhead

该参数指定了每个executor在分配的内存之外，能够额外获得的内存的大小，默认是7%

Spark参数配置说明的更多相关文章

spark-submit提交spark任务的具体参数配置说明
spark-submit提交spark任务的具体参数配置说明 1.spark提交任务常见的两种模式 2.提交任务时的几个重要参数 3.参数说明 3.1 executor_cores*num_execu ...
Spark参数详解一（Spark1.6）
Spark参数详解 (Spark1.6) 参考文档:Spark官网在Spark的web UI在"Environment"选项卡中列出Spark属性.这是一个很有用的地方,可以检查 ...
Spark参数配置
转自:http://hadoop1989.com/2015/10/08/Spark-Configuration/ 一.Spark参数设置二.查看Spark参数设置三.Spark参数分类四.Spa ...
C3P0连接池参数配置说明
C3P0连接池参数配置说明 created by cjk on 2017.8.15 常用配置 initialPoolSize:连接池初始化时创建的连接数,default : 3(建议使用) minPo ...
spark参数调优
摘要 1.num-executors 2.executor-memory 3.executor-cores 4.driver-memory 5.spark.default.parallelism 6. ...
Spark参数设置的方式
可以通过以下几种方式设置: 1)bin/spark-submit 可以直接读取conf/spark-defaults.conf文件每一行为一个key和valuespark.master ...
Spark 参数配置的几种方法
1.Spark 属性Spark应用程序的运行是通过外部参数来控制的,参数的设置正确与否,好与坏会直接影响应用程序的性能,也就影响我们整个集群的性能.参数控制有以下方式:(1)直接设置在SparkCon ...
rsync 参数配置说明[转]
rsync 特性可以镜像保存整个目录树和文件系统. 可以很容易做到保持原来文件的权限.时间.软硬链接等等. 无须特殊权限即可安装. 快速:第一次同步时 rsync 会复制全部内容,但在下一次只传输修 ...
Spark参数优化
a. 提升Spark运行 spark.sql.adaptive.enabled=true spark的自适应执行,启动Adaptive Execution spark.dynamicAllocatio ...

随机推荐

奇怪的电梯(HDU1548) （Dijkstra）或者（BFS）
问题 E: 奇怪的电梯时间限制: 1 Sec 内存限制: 64 MB提交: 35 解决: 16[提交][状态][讨论版] 题目描述有一天桐桐做了一个梦,梦见了一种很奇怪的电梯.大楼的每一层楼都 ...
JPA的Column注解总结
就像@Table注解用来标识实体类与数据表的对应关系类似,@Column注解来标识实体类中属性与数据表中字段的对应关系. 该注解的定义如下: @Target({METHOD, FIELD}) @Ret ...
UBUNTU下SUBLIME TEXT3的安装+破解+汉化+中文输入
一.Sublime Text3的下载安装建议直接去官网下载最新版deb安装包:http://www.sublimetext.com/3 二.Sublime Text3的破解 3114版 -– BEG ...
Questions?
http://www.datastax.com/wp-content/themes/datastax-2014-08/files/NoSQL_Benchmarks_EndPoint.pdf http: ...
斯坦福大学Andrew Ng教授主讲的《机器学习》公开课观后感［转］
近日,在网易公开课视频网站上看完了<机器学习>课程视频,现做个学后感,也叫观后感吧. 学习时间从2013年7月26日星期五开始,在网易公开课视频网站上,观看由斯坦福大学Andrew Ng ...
把excel数据生成sql insert语句
excel表格中有A.B.C三列数据,希望导入到数据库users表中,对应的字段分别是name,sex,age . 在你的excel表格中增加一列,利用excel的公式自动生成sql语句,方法如下: ...
redis.conf配置文件详解
redis 配置文件示例 # 当你需要为某个配置项指定内存大小的时候,必须要带上单位, # 通常的格式就是 1k 5gb 4m 等酱紫: # # 1k => 1000 bytes # 1kb = ...
unity shader random number
http://gamedev.stackexchange.com/questions/32681/random-number-hlsl
C语言的几种取整方法
C语言的几种取整方法来源:http://blog.sina.com.cn/s/blog_4c0cb1c001013ha9.html 1.直接赋值给整数变量.如: int i = 2.5; 或 i = ...
xml学习笔记一（概述）
XML 被设计用来传输和存储数据. HTML 被设计用来显示数据. 什么是 XML? XML 指可扩展标记语言(EXtensible Markup Language) XML 是一种标记语言,很类似 ...

Spark参数配置说明

Spark参数配置说明的更多相关文章

随机推荐

热门专题