1、使用高性能序列化类库
2、优化数据结构
3、对多次使用的RDD进行持久化/CheckPoint
4、使用序列化的持久化级别
5、Java虚拟机垃圾回收调优
降低RDD缓存占用空间的比例:new SparkConf().set("spark.storage.memoryFraction","0.5"),从而提高task使用的内存比例。
6、提高并行度
new SparkConf().set("spark.default.parallelism","5")这个参数一旦设定,每个RDD的数据,都会被拆分为5份,针对RDD的partition,一个partition会自动的来进行计算,所以对于所的算子操作,都会创建5个task在集群中运行。
spark官方推荐,设置集群总cpu的数量的两到三倍的并行度,每个cpu core可能分配到并发运行2-3个task线程,这样集群的状态就不太可能出现空闲的状态。
小知识:spark会自动设置以文件作为输入源的RDD的并行度,依据其大小,比如:HDFS,就会给每个block创建一个partition,也依据这个设置并行度,对于reduceByKey等会发生shuffle的操作,就使用并行度最大的父RDD的并行度即可。

7、广播共享数据
默认情况下,算子函数使用到的外部数据,会被拷贝到时每个task中。如果共享的数据较大,那么每个task都会把这个较大的数据拷贝至自己的节点上。

8、数据本地化
数据本地化对spark job性能有着巨大的影响。如果数据以及要计算它的代码是在一起的,那么性能会非常高。但是,如果数据和计算它的代码是分开的,那么其中之一必须到另外一方的机器上。通常来说,移动代码到其他节点,会比移动数据到代码所在的节点上去速度要快很多。因为代码比较小,spark也正是基于这个数据本地化的原则来构建task调度算法的。
本地化,指的是,数据离计算它的代码有多近,基于数据距离代码的距离,有几种数据本地化级别:
1)PROCESS_LOCAL:数据和计算它的代码在同一个jvm进程中。
2)NODE_LOCA:数据和计算它的代码在一个节点上,但是不在一个进程中,比如在不同的executor进程中,或者是数据在HDFS文件的block中。
3)NO_PREF:数据从哪里过来,性能都是一样的。
4)RACK_LOCAL:数据和计算它的代码在一个机架上。
5)ANY:数据可能在任意地方,比如其他网络环境内,或是在其他机架上。
spark处理partition数据时,首先会尽量的使用最好的本地化的级别去启动task,若启动的节点一直处于忙碌状态,spark会待一会,如果executor有空闲资源了,便会启动task。若等待一会(时间可以通过参数设置),发现没有executor的core释放,那么会放大一个级别去启动这个Task。
可以设置参数,spark.locality系列参数,来调节spark等待task可以进行数据 本地化的时间。spark.locality.wait(3000ms)、spark.locality.wait.node、spark.locality.wait.process、spark.locality.wait.rack

9、reduceByKey和groupByKey的合理使用
如果能使用reduceByKey就使用reduceByKey,因为它会在map端先进行本地combine,可以大大减少传输reduce端的数据量,减少网络传输的开销。只有在ReduceByKey处理不了的时候,才会用groupByKey().map()来替代。

10、shuffle调优(重中之重)
spark.shuffle.con.solidateFiles:是否开启shuffle block file的合并,默认是false
spark.reducer.maxSizeInFlight:reduce task的摘取缓存,默认是48m
spark.shuffle.file.buffer:map task的写磁盘缓存,默认32K
spark.shuffle.io.maxRetries:拉取失败的最大重试次数,默认是3次
spark.shuffle.io.retryWait:拉取失败的重试间隔,默认5s
spark.shuffle.memoryFraction:用于reduce端聚合的内存比例,默认为0.2,超过比例就会溢出到磁盘上。

spark性能调优点(逐步完善)的更多相关文章

  1. [Spark性能调优] 第一章:性能调优的本质、Spark资源使用原理和调优要点分析

    本課主題 大数据性能调优的本质 Spark 性能调优要点分析 Spark 资源使用原理流程 Spark 资源调优最佳实战 Spark 更高性能的算子 引言 我们谈大数据性能调优,到底在谈什么,它的本质 ...

  2. spark 性能调优(一) 性能调优的本质、spark资源使用原理、调优要点分析

    转载:http://www.cnblogs.com/jcchoiling/p/6440709.html 一.大数据性能调优的本质 编程的时候发现一个惊人的规律,软件是不存在的!所有编程高手级别的人无论 ...

  3. Spark性能调优:广播大变量broadcast

    Spark性能调优:广播大变量broadcast 原文链接:https://blog.csdn.net/leen0304/article/details/78720838 概要 有时在开发过程中,会遇 ...

  4. Spark性能调优之代码方面的优化

    Spark性能调优之代码方面的优化 1.避免创建重复的RDD     对性能没有问题,但会造成代码混乱   2.尽可能复用同一个RDD,减少产生RDD的个数   3.对多次使用的RDD进行持久化(ca ...

  5. Spark性能调优之合理设置并行度

    Spark性能调优之合理设置并行度 1.Spark的并行度指的是什么?     spark作业中,各个stage的task的数量,也就代表了spark作业在各个阶段stage的并行度!     当分配 ...

  6. Spark性能调优之资源分配

    Spark性能调优之资源分配    性能优化王道就是给更多资源!机器更多了,CPU更多了,内存更多了,性能和速度上的提升,是显而易见的.基本上,在一定范围之内,增加资源与性能的提升,是成正比的:写完了 ...

  7. Spark性能调优之Shuffle调优

    Spark性能调优之Shuffle调优    • Spark底层shuffle的传输方式是使用netty传输,netty在进行网络传输的过程会申请堆外内存(netty是零拷贝),所以使用了堆外内存. ...

  8. Spark性能调优之解决数据倾斜

    Spark性能调优之解决数据倾斜 数据倾斜七种解决方案 shuffle的过程最容易引起数据倾斜 1.使用Hive ETL预处理数据    • 方案适用场景:如果导致数据倾斜的是Hive表.如果该Hiv ...

  9. Spark性能调优之JVM调优

    Spark性能调优之JVM调优 通过一张图让你明白以下四个问题                1.JVM GC机制,堆内存的组成                2.Spark的调优为什么会和JVM的调 ...

随机推荐

  1. 龙芯软硬件培训个人总结-day2

     今天最后一天,主要培训了BSP,QT,KVM云计算相关的内容.大致总结了一些自己关注的点.培训的资料已上传至服务器,如果需要可关注下方二维码,后台直接回复“资料”获取.关于实战的资料还未导出,等导出 ...

  2. 求第n个质数

    输入一个不超过 10000 的正整数 n,求第n个质数 样例输入 10 样例输出 29 题目地址 #include<stdio.h> #include<math.h> int ...

  3. 报错:java.lang.NoClassDefFoundError: com/google/inject/Injector

    使用testng report,导入jar包:reportng.jar和velocity-dep-1.4.jar后,执行脚本,报错如下: 缺少依赖的jar包:guice-4.0.jar 导入依赖的ja ...

  4. Python学习之数据库初识

    9 数据库 9.1 数据库的初识 ​ 数据库是可以独立运行的,并且可以对数据的增删改查提供高效便捷方式的工具. 数据库解决的问题: ​ 解决了操作文件的效率和便捷问题 ​ 解决了多个服务同时使用数据时 ...

  5. 24个MySQL面试题

    一.为什么用自增列作为主键? 1.如果我们定义了主键(PRIMARY KEY),那么InnoDB会选择主键作为聚集索引. 如果没有显式定义主键,则InnoDB会选择第一个不包含有NULL值的唯一索引作 ...

  6. TensorFlow基础总结

    1.基础概念 Tensor:类型化的多维数组,图的边:Tensor所引用的并不持有具体的值,而是保持一个计算过程,可以使用session.run()或者t.eval()对tensor的值进行计算. O ...

  7. mysql——单表查询——聚合函数——示例

    ), km ), cj ) ); select * from score; ,); ,); ,); ,); ,); ,); ,); ,); ,); ,); ,); ,); ; 查询此同学的总成绩: ; ...

  8. 三校联训 小澳的葫芦(calabash) 题解

    题面:小澳的葫芦[ 题目描述]小澳最喜欢的歌曲就是<葫芦娃>.一日表演唱歌,他尽了洪荒之力,唱响心中圣歌.随之,小澳进入了葫芦世界.葫芦世界有 n 个葫芦,标号为 1~ n. n 个葫芦由 ...

  9. Luogu P4147 玉蟾宫

    题目 就是全0子矩阵. 先预处理每个点上面有多少个连续的0(包括自己). 然后我们枚举下边界(1-n). 我们开一个单调栈,记录一个上界递增的矩形集合. 如果我们扫到了一个比当前栈顶要矮的矩形,那么我 ...

  10. JAVA并发编程实战笔记 第二章

    2.1 线程安全性 当多个线程访问某个类时,不论这些线程如何交替执行,这个类始终都能表现出正确的行为,且主调代码中不需要任何额外的同步或协同,则称这个类是线程安全的. 类不变性条件(Invariant ...