Spark Streaming性能调优详解（转）

原文链接：Spark Streaming性能调优详解

　Spark Streaming提供了高效便捷的流式处理模式，但是在有些场景下，使用默认的配置达不到最优，甚至无法实时处理来自外部的数据，这时候我们就需要对默认的配置进行相关的修改。由于现实中场景和数据量不一样，所以我们无法设置一些通用的配置（要不然Spark Streaming开发者就不会弄那么多参数，直接写死不得了），我们需要根据数据量，场景的不同设置不一样的配置，这里只是给出建议，这些调优不一定试用于你的程序，一个好的配置是需要慢慢地尝试。

　　1、设置合理的批处理时间(batchDuration)。

　　在构建StreamingContext的时候，需要我们传进一个参数，用于设置Spark Streaming批处理的时间间隔。Spark会每隔batchDuration时间去提交一次Job，如果你的Job处理的时间超过了batchDuration的设置，那么会导致后面的作业无法按时提交，随着时间的推移，越来越多的作业被拖延，最后导致整个Streaming作业被阻塞，这就间接地导致无法实时处理数据，这肯定不是我们想要的。

　　另外，虽然batchDuration的单位可以达到毫秒级别的，但是经验告诉我们，如果这个值过小将会导致因频繁提交作业从而给整个Streaming带来负担，所以请尽量不要将这个值设置为小于500ms。在很多情况下，设置为500ms性能就很不错了。

　　那么，如何设置一个好的值呢？我们可以先将这个值位置为比较大的值（比如10S），如果我们发现作业很快被提交完成，我们可以进一步减小这个值，知道Streaming作业刚好能够及时处理完上一个批处理的数据，那么这个值就是我们要的最优值。

　　2、增加Job并行度

　　我们需要充分地利用集群的资源，尽可能的将Task分配到不同的节点，一方面可以充分利用集群资源；另一方面还可以及时的处理数据。比如我们使用Streaming接收来自Kafka的数据，我们可以对每个Kafka分区设置一个接收器，这样可以达到负载均衡，及时处理数据（关于如何使用Streaming读取Kafka中的数据，可以参见《Spark Streaming和Kafka整合开发指南(一)》和《Spark Streaming和Kafka整合开发指南(二)》）。

　　再如类似reduceByKey()和Join函数都可以设置并行度参数。

　　3、使用Kryo系列化。

　　Spark默认的是使用Java内置的系列化类，虽然可以处理所有自继承java.io.Serializable的类系列化的类，但是其性能不佳，如果这个成为性能瓶颈，可以使用Kryo系列化类，关于如何在Spark中使用Kroy，请参见《在Spark中自定义Kryo序列化输入输出API》。使用系列化数据可以很好地改善GC行为。

　　4、缓存需要经常使用的数据

　　对一些经常使用到的数据，我们可以显式地调用rdd.cache()来缓存数据，这样也可以加快数据的处理，但是我们需要更多的内存资源。

　　5、清除不需要的数据

　　随着时间的推移，有一些数据是不需要的，但是这些数据是缓存在内存中，会消耗我们宝贵的内存资源，我们可以通过配置spark.cleaner.ttl为一个合理的值；但是这个值不能过小，因为如果后面计算需要用的数据被清除会带来不必要的麻烦。而且，我们还可以配置选项spark.streaming.unpersist为true(默认就是true)来更智能地去持久化（unpersist）RDD。这个配置使系统找出那些不需要经常保有的RDD，然后去持久化它们。这可以减少Spark RDD的内存使用，也可能改善垃圾回收的行为。

　　6、设置合理的GC

　　GC是程序中最难调的一块，不合理的GC行为会给程序带来很大的影响。在集群环境下，我们可以使用并行Mark-Sweep垃圾回收机制，虽然这个消耗更多的资源，但是我们还是建议开启。可以如下配置：

`1`	`spark.executor.extraJavaOptions=-XX:+UseConcMarkSweepGC`

　　更多的关于GC行为的配置，请参考Java垃圾回收相关文章。这里就不详细介绍了。

　　7、设置合理的CPU资源数

　　很多情况下Streaming程序需要的内存不是很多，但是需要的CPU要很多。在Streaming程序中，CPU资源的使用可以分为两大类：（1）、用于接收数据；（2）、用于处理数据。我们需要设置足够的CPU资源，使得有足够的CPU资源用于接收和处理数据，这样才能及时高效地处理数据。

Spark Streaming性能调优详解（转）的更多相关文章

Spark Streaming性能调优详解
Spark Streaming性能调优详解 Spark 2015-04-28 7:43:05 7896℃ 0评论分享到微博下载为PDF 2014 Spark亚太峰会会议资料下载.< ...
JVM性能调优详解
前面我们学习了整个JVM系列,最终目标的不仅仅是了解JVM的基础知识,也是为了进行JVM性能调优做准备.这篇文章带领大家学习JVM性能调优的知识. 性能调优性能调优包含多个层次,比如:架构调优.代码 ...
[转帖]JVM性能调优详解
JVM性能调优详解 https://www.cnblogs.com/secbro/p/11833651.html 应该是 jdk8 以前的方法貌似permsize 已经放弃这一块了. 前面我们学习了 ...
Spark Streaming性能调优
数据接收并行度调优(一) 通过网络接收数据时(比如Kafka.Flume),会将数据反序列化,并存储在Spark的内存中.如果数据接收称为系统的瓶颈,那么可以考虑并行化数据接收.每一个输入DStrea ...
Java生产环境下性能监控与调优详解视频教程百度云网盘
集数合计:9章Java视频教程详情描述:A0193<Java生产环境下性能监控与调优详解视频教程>软件开发只是第一步,上线后的性能监控与调优才是更为重要的一步本课程将为你讲解如何在生产环境 ...
Spark的性能调优杂谈
下面这些关于Spark的性能调优项,有的是来自官方的,有的是来自别的的工程师,有的则是我自己总结的. 基本概念和原则 <1> 每一台host上面可以并行N个worker,每一个worke ...
Spark的性能调优
下面这些关于Spark的性能调优项,有的是来自官方的,有的是来自别的的工程师,有的则是我自己总结的. Data Serialization,默认使用的是Java Serialization,这个程序员 ...
Spark：性能调优
来自:http://blog.csdn.net/u012102306/article/details/51637366 资源参数调优了解完了Spark作业运行的基本原理之后,对资源相关的参数就容易理 ...
Spark 常规性能调优
1. 常规性能调优一:最优资源配置 Spark性能调优的第一步,就是为任务分配更多的资源,在一定范围内,增加资源的分配与性能的提升是成正比的,实现了最优的资源配置后,在此基础上再考虑进行后面论述的性 ...

随机推荐

Javascript、C#、php、asp、python 等语言的链式操作的实现
一.什么是链式操作把需要的下一步操作的对象通过上一步操作返回回来.使完成某些功能具有持续性. 二.链式操作优点代码更精简优雅.链式操作能大大精简代码量,多项操作一行代码一气呵成,搞定: 链式操作应 ...
yii2 GirdView使用全教程
开始GridView GridView主要是为了实现表格复用,尤其我们做后台的时候,你发现表单和表格占据了大部分页面,而表格的样式又是高度的统一,那么如果有这样一个挂件,传入数据集自动渲染表格该多好. ...
当参数为带参数的url时怎么办？
比如地址为:http://www.baidu.com/index.aspx?url=http://www.baidu.com/info.aspx?id=1&type=1,用Request[&q ...
vs 单元测试
vs 2010 NOget 包安装NUnitTDNet,下载TestDriven.NET(http://www.testdriven.net/). 准备动作先到http://www.testdri ...
jquery控制元素的显示与隐藏
比如要控制div的显示与隐藏,一句话就搞定了.$("#id").show()表示display:block,$("#id").hide()表示display:n ...
【WPF】OnApplyTemplate
操作模板控件在做WPF开发的时候,我们通常因为满足不同的需求会开发一些自定义控件来满足需要,我们会自定义模板来定义控件的外观,添加命令和路由事件来给控件添加行为,那如何在模板中查找元素并关联事件处理 ...
cdoj1092-韩爷的梦（字符串hash）【hash】
http://acm.uestc.edu.cn/#/problem/show/1092 韩爷的梦 Time Limit: 200/100MS (Java/Others) Memory Limi ...
TCP 的那些事儿-1
TCP是一个巨复杂的协议,因为他要解决很多问题,而这些问题又带出了很多子问题和阴暗面.所以学习TCP本身是个比较痛苦的过程,但对于学习的过程却能让人有很多收获.关于TCP这个协议的细节,我还是推荐你去 ...
SOJ 4552 [期望，概率]
题目链接:[http://acm.scu.edu.cn/soj/problem.action?id=4552] 题意:给你n种卡牌,每种卡牌有无限多个,每次从中抽取一张卡牌,问:1.集齐这n种卡牌需要 ...
【次短路径/SPFA】BZOJ1726-[Usaco2006 Nov]Roadblocks第二短路
[题目大意] 求无向图点1到n的次短路. [思路] 一年多前写过一次堆优化Dijkstra的,方法就是一边跑Dijsktra一边就把次短路径保存下来.和一般Dijkstra不同的是把vis数组去掉了, ...

Spark Streaming性能调优详解（转）

原文链接：Spark Streaming性能调优详解

Spark Streaming性能调优详解（转）的更多相关文章

随机推荐

热门专题