Spark&Spark性能调优实战

Spark特别适用于多次操作特定的数据，分mem-only和mem & disk。当中mem-only:效率高，但占用大量的内存，成本非常高;mem
& disk:内存用完后，会自己主动向磁盘迁移，攻克了内存不足的问题，却带来了数据的置换的消费。Spark常见的调优工具有nman、Jmeter和Jprofile,下面是Spark调优的一个实例分析：

1、场景：精确客户群

对一个容量为300g的客户信息表在spark上进行查询优化，该大宽表有1800多列。有效使用的有20列。

2、优化达到的效果：查询由原来的40.232s减少为2.7s

3、优化过程分析

第一步：首先发现磁盘存在大量的iowait，通过查看相关日志文件，发现一个block的大小进而推算出整个数据文件大小为300G整个内存无法容纳，採用压缩的方法实现优化。结合本数据文件的特点。存在大量的0和1，选
Gzip算法进行压缩。压缩后的大小为1.9G，该步使得查询从40.232降为了20.12s。

第二步：大宽表存在1800多列。而有效使用的仅仅有20多列，故通过RCFILE仅仅将有效的列载入。该步使得查询从20s降为12s。

第三步：通过Jprofile分析出CPU的负载过高，究竟是什么原因造成的，细致发现序列化机制有问题。Spark的serialization框架有两种：java自身的和kryo的。当中kryo
是一个高速高效的Java对象图形序列化框架,主要特点是性能、高效和易用，换成kryo后，查询从12s降到7s。

第四步：进一步分析CPU各核负载量非常不均匀。内存也没实用满，系统的资源没有得到充分利用，该怎样利用？ (1)Spark的RDD的partition个数创建task的个数是相应的;(2)Partition的个数在hadoop的RDD中由block的个数决定的，内存：系统总内存数=work内存大小*work数=SPARK_WORKER_MEMORY*SPARK_WORKER_INSTANCES;

CPU:系统总的task数=work数×work所占的cores数=SPARK_WORKER_INSTANCES*SPARK_WORKER_CORES，计算task并行度。内存分配情况，调优參数：

SPARK_WORKER_INSTANCES=4

SPARK_WORKER_CORES = 3

SPARK_WORKER_MEMORY = 6G

Cpu(12core) mem(24G)，通过这几个參数的优化，查询由7s降到5s。

第五步：进一步发现Sharkserver端出现明显的fullGC,通过调优參数

Export SHARK_MASTER_MEM=2g,该步由6s降到3sl;

第六步：又发现当两表关联时，cpu
出现瓶颈，分析原因是日表做了gzip压缩，优化方法：日表不使用gzip压缩。将日表做成内存表。查询从3s降到2s。

4、总结

优化是一个逐步求精的过程，回想该优化过程，主要是从下面几个因素考虑：(1)mem;(2)cpu;(3)dis;(4)网络IO;(5)序列化机制。

认真这些因素为主线，挖掘与其相关的内容时行大胆尝试。

Spark&Spark性能调优实战的更多相关文章

JVM 性能调优实战之：一次系统性能瓶颈的寻找过程
玩过性能优化的朋友都清楚,性能优化的关键并不在于怎么进行优化,而在于怎么找到当前系统的性能瓶颈.性能优化分为好几个层次,比如系统层次.算法层次.代码层次…JVM 的性能优化被认为是底层优化,门槛较高, ...
JVM 性能调优实战之：使用阿里开源工具 TProfiler 在海量业务代码中精确定位性能代码
本文是<JVM 性能调优实战之:一次系统性能瓶颈的寻找过程> 的后续篇,该篇介绍了如何使用 JDK 自身提供的工具进行 JVM 调优将 TPS 由 2.5 提升到 20 (提升了 7 倍) ...
spring-petclinic性能调优实战（转）
1.spring-petclinic介绍 spring-petclinic是spring官方做的一个宠物商店,结合了spring和其他一些框架的最佳实践. 架构如下: 1)前端 Thymeleaf做H ...
Apache Pulsar 在 BIGO 的性能调优实战（上）
背景在人工智能技术的支持下,BIGO 基于视频的产品和服务受到广泛欢迎,在 150 多个国家/地区拥有用户,其中包括 Bigo Live(直播)和 Likee(短视频).Bigo Live 在 15 ...
Java性能调优实战,覆盖80%以上调优场景
Java 性能调优对于每一个奋战在开发一线的技术人来说,随着系统访问量的增加.代码的臃肿,各种性能问题便会层出不穷. 日渐复杂的系统,错综复杂的性能调优,都对Java工程师的技术广度和技术深度提出了更 ...
高性能 Java 计算服务的性能调优实战
作者:vivo 互联网服务器团队- Chen Dongxing.Li Haoxuan.Chen Jinxia 随着业务的日渐复杂,性能优化俨然成为了每一位技术人的必修课.性能优化从何着手?如何从问题表 ...
PHP 性能分析第三篇: 性能调优实战
注意:本文是我们的 PHP 性能分析系列的第三篇,点此阅读 PHP 性能分析第一篇: XHProf & XHGui 介绍 ,或 PHP 性能分析第二篇: 深入研究 XHGui. 在本系列的 ...
Tomcat性能调优实战
今日帮朋友做了tomcat性能调优的实际操作,心得记录一下. 服务器:Windows2017 配置:CPU 4 内存 8G Tomcat8.0+版本. 压力测试工具:apache-jmeter-4.0 ...
spark sql 的性能调优
Caching Data in Memory 其他调优参数

随机推荐

cocos2d-x的经历（含源码——）
源于手游的火爆和大环境的影响,最近在学习cocos2d-x.其实以前一直有想搞andriod和ios的尝试,可惜本屌丝没钱买mac os x,只好先开始学习andriod,于是买了小米2s作为测试机, ...
IOS系统对fixed定位支持不好的解决方法
问题: IOS 中所有浏览器,当页面上的输入框获得焦点时,呼出键盘. 页面底部的导航栏(position:fixed)会被键盘顶到页面的中间. 而当输入框失去焦点时,导航栏停留在页面中间,造成页面错乱 ...
JQuery Datatable Ajax请求两次问题的解决
最近一个项目中使用JQuery Datatable,用起来比较方便,但在测试过程中,发现当条件改变时,有时查询结果中的数据不正确. 使用FireBug跟踪时,发现在使用Ajax请求时,点击一次搜索按钮 ...
itextSharp 使用模板(PdfTemplate)不规则分栏(ColumnText)
public static void Main() { Document document = new Document(); BaseFont bf = BaseFont.createFont(Ba ...
oc 可变參数传递
- (id)initWithFrame:(CGRect)frame delegate:(id<SGFocusImageFrameDelegate>)delegate focusImageI ...
【Android】属性动画
转载请注明出处:http://blog.csdn.net/h28496/44338669 属性动画的原理通过不断的设置一个View的属性让其出现动画效果.比如,不断地设置一个Button的x值.这个 ...
Appium 的安装启动
Appium 的安装方式根据官网提供的是使用nodejs 安装,但是官方给出了三种方法参考网址: appium下载地址: https://bitbucket.org/appium/appium.ap ...
js 动态切换视频
如图所示,想要一个这样的效果,就是点击下面视频标题时,上面的视频跟着切换,但是要求页面不重新加载. 参考文章在这里这里贴上部分代码供大家参考. <li id="about_li6&q ...
基于visual Studio2013解决C语言竞赛题之1051数的顺序
题目解决代码及点评 /* 功能:自然数N一般写成如下形式: N=d[k]d[k-1]d[1] (d[1]-d[k] 均是十进制数字) 如果d[i+1]>d[i] (i=k-1 ...
Android学习笔记（九）——更复杂的进度对话框
显示操作进度的对话框 1.使用上一篇创建的同一项目.在activity_main.xml文件里加入一个Button: <Button android:id="@+id/btn_dial ...

Spark&amp;Spark性能调优实战

Spark&amp;Spark性能调优实战的更多相关文章

随机推荐

热门专题

Spark&Spark性能调优实战

Spark&Spark性能调优实战的更多相关文章