spark性能调优点（逐步完善）

1、使用高性能序列化类库
2、优化数据结构
3、对多次使用的RDD进行持久化/CheckPoint
4、使用序列化的持久化级别
5、Java虚拟机垃圾回收调优
降低RDD缓存占用空间的比例：new SparkConf().set("spark.storage.memoryFraction","0.5"),从而提高task使用的内存比例。
6、提高并行度
new SparkConf().set("spark.default.parallelism","5")这个参数一旦设定，每个RDD的数据，都会被拆分为5份，针对RDD的partition，一个partition会自动的来进行计算，所以对于所的算子操作，都会创建5个task在集群中运行。
spark官方推荐，设置集群总cpu的数量的两到三倍的并行度，每个cpu core可能分配到并发运行2-3个task线程，这样集群的状态就不太可能出现空闲的状态。
小知识：spark会自动设置以文件作为输入源的RDD的并行度，依据其大小，比如：HDFS，就会给每个block创建一个partition,也依据这个设置并行度，对于reduceByKey等会发生shuffle的操作，就使用并行度最大的父RDD的并行度即可。

7、广播共享数据
默认情况下，算子函数使用到的外部数据，会被拷贝到时每个task中。如果共享的数据较大，那么每个task都会把这个较大的数据拷贝至自己的节点上。

8、数据本地化
数据本地化对spark job性能有着巨大的影响。如果数据以及要计算它的代码是在一起的，那么性能会非常高。但是，如果数据和计算它的代码是分开的，那么其中之一必须到另外一方的机器上。通常来说，移动代码到其他节点，会比移动数据到代码所在的节点上去速度要快很多。因为代码比较小，spark也正是基于这个数据本地化的原则来构建task调度算法的。
本地化，指的是，数据离计算它的代码有多近，基于数据距离代码的距离，有几种数据本地化级别：
1）PROCESS_LOCAL：数据和计算它的代码在同一个jvm进程中。
2）NODE_LOCA:数据和计算它的代码在一个节点上，但是不在一个进程中，比如在不同的executor进程中，或者是数据在HDFS文件的block中。
3）NO_PREF：数据从哪里过来，性能都是一样的。
4）RACK_LOCAL：数据和计算它的代码在一个机架上。
5）ANY：数据可能在任意地方，比如其他网络环境内，或是在其他机架上。
spark处理partition数据时，首先会尽量的使用最好的本地化的级别去启动task,若启动的节点一直处于忙碌状态，spark会待一会，如果executor有空闲资源了，便会启动task。若等待一会（时间可以通过参数设置），发现没有executor的core释放，那么会放大一个级别去启动这个Task。
可以设置参数，spark.locality系列参数，来调节spark等待task可以进行数据本地化的时间。spark.locality.wait(3000ms)、spark.locality.wait.node、spark.locality.wait.process、spark.locality.wait.rack

9、reduceByKey和groupByKey的合理使用
如果能使用reduceByKey就使用reduceByKey,因为它会在map端先进行本地combine,可以大大减少传输reduce端的数据量，减少网络传输的开销。只有在ReduceByKey处理不了的时候，才会用groupByKey().map()来替代。

10、shuffle调优（重中之重）
spark.shuffle.con.solidateFiles:是否开启shuffle block file的合并，默认是false
spark.reducer.maxSizeInFlight:reduce task的摘取缓存，默认是48m
spark.shuffle.file.buffer:map task的写磁盘缓存，默认32K
spark.shuffle.io.maxRetries:拉取失败的最大重试次数，默认是3次
spark.shuffle.io.retryWait:拉取失败的重试间隔，默认5s
spark.shuffle.memoryFraction:用于reduce端聚合的内存比例，默认为0.2，超过比例就会溢出到磁盘上。

spark性能调优点（逐步完善）的更多相关文章

[Spark性能调优] 第一章：性能调优的本质、Spark资源使用原理和调优要点分析
本課主題大数据性能调优的本质 Spark 性能调优要点分析 Spark 资源使用原理流程 Spark 资源调优最佳实战 Spark 更高性能的算子引言我们谈大数据性能调优,到底在谈什么,它的本质 ...
spark 性能调优（一）性能调优的本质、spark资源使用原理、调优要点分析
转载:http://www.cnblogs.com/jcchoiling/p/6440709.html 一.大数据性能调优的本质编程的时候发现一个惊人的规律,软件是不存在的!所有编程高手级别的人无论 ...
Spark性能调优：广播大变量broadcast
Spark性能调优:广播大变量broadcast 原文链接:https://blog.csdn.net/leen0304/article/details/78720838 概要有时在开发过程中,会遇 ...
Spark性能调优之代码方面的优化
Spark性能调优之代码方面的优化 1.避免创建重复的RDD 对性能没有问题,但会造成代码混乱 2.尽可能复用同一个RDD,减少产生RDD的个数 3.对多次使用的RDD进行持久化(ca ...
Spark性能调优之合理设置并行度
Spark性能调优之合理设置并行度 1.Spark的并行度指的是什么? spark作业中,各个stage的task的数量,也就代表了spark作业在各个阶段stage的并行度! 当分配 ...
Spark性能调优之资源分配
Spark性能调优之资源分配性能优化王道就是给更多资源!机器更多了,CPU更多了,内存更多了,性能和速度上的提升,是显而易见的.基本上,在一定范围之内,增加资源与性能的提升,是成正比的:写完了 ...
Spark性能调优之Shuffle调优
Spark性能调优之Shuffle调优 • Spark底层shuffle的传输方式是使用netty传输,netty在进行网络传输的过程会申请堆外内存(netty是零拷贝),所以使用了堆外内存. ...
Spark性能调优之解决数据倾斜
Spark性能调优之解决数据倾斜数据倾斜七种解决方案 shuffle的过程最容易引起数据倾斜 1.使用Hive ETL预处理数据 • 方案适用场景:如果导致数据倾斜的是Hive表.如果该Hiv ...
Spark性能调优之JVM调优
Spark性能调优之JVM调优通过一张图让你明白以下四个问题 1.JVM GC机制,堆内存的组成 2.Spark的调优为什么会和JVM的调 ...

随机推荐

java：javaScript（定义方式，循环语句，函数与参数，事件机制，控制台记录，event事件获取键盘ascii，confirm和prompt，事件和内置对象，获取input，点击更换背景色）
1. 定义JS的两种方式: <!DOCTYPE> <html> <head> <meta charset="UTF-8"></ ...
【MM系列】SAP S/4 HANA 1511的BP角色创建及供应商数据的创建方法
公众号:SAP Technical 本文作者:matinal 原文出处:http://www.cnblogs.com/SAPmatinal/ 原文链接:[MM系列]SAP S/4 HANA 1511的 ...
Scratch少儿编程系列：（十一）Scratch编程之简单见解
一.Scratch官网的说明 With Scratch, you can program your own interactive stories, games, and animations ...
miniui 请求遮罩mask不生效
通用写法: mini.mask({ el:document.body(作用对象) cls:样式 hetml:显示文本 }) 我的问题是,当前页面的遮罩无效不会显示,但是页面不能点击问题原因,aj ...
点云ICP注册
原文链接背景两个点云要注册在一块,一般分两个步骤:先做一个大致的对齐,也就是所谓的初始注册,一般可以通过一些可靠的点对来计算得到(如图3所示):然后在初始注册的基础上进行精细注册,提升注册的精度( ...
Websocket --（2）实现
首先声明,本篇博文参考文章 https://blog.csdn.net/jack_eusong/article/details/79064081 主要在于理解和自己动手搭建环境,自己搭建的过程中会发生 ...
Spring（九）--通知
Spring之Advice通知 Spring原生的经典模式实现AOPadvice :通知前置通知:在目标方法执行之前执行!不能改变方法的执行流程和结果! 实现MethodB ...
面试官：new一个对象有哪两个过程？
Java在new一个对象的时候,会先查看对象所属的类有没有被加载到内存,如果没有的话,就会先通过类的全限定名来加载.加载并初始化类完成后,再进行对象的创建工作. 我们先假设是第一次使用该类,这样的话n ...
P1398 [NOI2013]书法家
传送门就是个普及组 $dp$ 合集,把 $NOI$ 从左到右拆成 $9$ 个部分,每个部分都可以分别 $dp$ 除了 $N$ 的中间部分比较恶心以外其他都还好,自己推一下然后就知道转移,就 $N$ ...
element-ui 中 switch 开关绑定number 的解决方法
虽然element-ui 的文档中说明 v-model的值可以是 boolean / string / number 三种类型 , (文档在此)https://element.eleme.cn/#/z ...

spark性能调优点（逐步完善）

spark性能调优点（逐步完善）的更多相关文章

随机推荐

热门专题