【Spark调优】：结合业务场景，优选高性能算子

聚合操作使用reduceByKey/aggregateByKey替代groupByKey

　　参见我的这篇博客说明【Spark调优】：如果实在要shuffle，使用map侧预聚合的算子

内存充足前提下使用mapPartitions替代普通map

　　mapPartitions类的算子，一次函数调用会处理一个partition所有的数据，而不是一次函数调用处理一条，性能相对来说会高一些。但是有的时候，使用mapPartitions会出现OOM（内存溢出）问题。因为单次函数调用就要处理掉一个partition所有的数据，如果内存不够，垃圾回收时是无法回收掉太多对象的，很可能出现OOM异常。所以使用这类操作时要提前做好计算。

内存充足前提下使用foreachPartitions替代foreach

　　原理类似于上述“使用mapPartitions替代map”，也是一次函数调用处理一个partition的所有数据，而不是一次函数调用处理一条数据，对性能的提升很有帮助。比如在foreach函数中，将RDD中所有数据写MySQL，那么如果是普通的foreach算子，就会一条数据一条数据地写，每次函数调用可能就会创建一个数据库连接，此时就势必会频繁地创建和销毁数据库连接，性能是非常低下；但是如果用foreachPartitions算子一次性处理一个partition的数据，那么对于每个partition，只要创建一个数据库连接即可，然后执行批量插入操作，此时性能是比较高的。　　　　

filter之后考虑接coalesce操作

通常对一个RDD执行filter算子过滤掉RDD中较多数据后（例如30%以上数据），考虑使用coalesce算子，手动减少RDD的partition数量，将RDD中的数据压缩到更少的partition中去，从而也同步降低了处理的task数量。因为filter之后，RDD的每个partition中都会有很多数据被过滤掉，此时如果照常进行后续的计算，其实每个task处理的partition中的数据量并不是很多，有一点资源浪费，而且此时处理的task越多，可能速度反而越慢。因此用coalesce减少partition数量，将RDD中的数据压缩到更少的partition之后，只要使用更少的task即可处理完所有的partition。在某些场景下，对于性能的提升会有一定的帮助。

重分区+排序使用repartitionAndSortWithinPartitions替代repartition+sort操作

　　repartitionAndSortWithinPartitions是Spark官网推荐的一个算子，官方建议：如果需要在repartition重分区之后，还要进行排序，建议直接使用repartitionAndSortWithinPartitions算子。因为该算子可以一边进行重分区的shuffle操作，一边进行排序。shuffle与sort两个操作同时进行，一般比先shuffle再sort性能高。

　　代码实践：https://github.com/wwcom614/Spark

【Spark调优】：结合业务场景，优选高性能算子的更多相关文章

Spark调优秘诀——超详细
版权声明:本文为博主原创文章,转载请注明出处. Spark调优秘诀 1.诊断内存的消耗在Spark应用程序中,内存都消耗在哪了? 1.每个Java对象都有一个包含该对象元数据的对象头,其大小是16个 ...
【Spark调优】Broadcast广播变量
[业务场景] 在Spark的统计开发过程中,肯定会遇到类似小维表join大业务表的场景,或者需要在算子函数中使用外部变量的场景(尤其是大变量,比如100M以上的大集合),那么此时应该使用Spark的广 ...
Spark调优指南
Spark相关问题 Spark比MR快的原因? 1) Spark的计算结果可以放入内存,支持基于内存的迭代,MR不支持. 2) Spark有DAG有向无环图,可以实现pipeline的计算模式. 3) ...
Spark调优 | Spark Streaming 调优
Spark调优 | Spark Streaming 调优 1.数据序列化 2.广播大变量 3.数据处理和接收时的并行度 4.设置合理的批处理间隔 5.内存优化 5.1 内存管理 5.2优化策略 5.3 ...
【Spark调优】提交job资源参数调优
[场景] Spark提交作业job的时候要指定该job可以使用的CPU.内存等资源参数,生产环境中,任务资源分配不足会导致该job执行中断.失败等问题,所以对Spark的job资源参数分配调优非常重要 ...
【Spark调优】大表join大表，少数key导致数据倾斜解决方案
[使用场景] 两个RDD进行join的时候,如果数据量都比较大,那么此时可以sample看下两个RDD中的key分布情况.如果出现数据倾斜,是因为其中某一个RDD中的少数几个key的数据量过大,而另一 ...
【Spark调优】小表join大表数据倾斜解决方案
[使用场景] 对RDD使用join类操作,或者是在Spark SQL中使用join语句时,而且join操作中的一个RDD或表的数据量比较小(例如几百MB或者1~2GB),比较适用此方案. [解决方案] ...
【Spark调优】数据倾斜及排查
[数据倾斜及调优概述] 大数据分布式计算中一个常见的棘手问题——数据倾斜: 在进行shuffle的时候,必须将各个节点上相同的key拉取到某个节点上的一个task来进行处理,比如按照key进行聚合或j ...
【Spark调优】Kryo序列化
[Java序列化与反序列化] Java序列化是指把Java对象转换为字节序列的过程:而Java反序列化是指把字节序列恢复为Java对象的过程.序列化使用场景:1.数据的持久化,通过序列化可以把数据永久 ...

随机推荐

Ubuntu下解决MySQL自启动,chkconfig list 全部off 情况
chkconfig命令是用于RedHat/Fedora发行版的,而对于像Ubuntu之类的Debian发行版,应该使用这个命令: sudo update-rc.d mysql defaults 验证一 ...
关于echarts图表在tab页中width:100%失效的问题
https://www.cnblogs.com/tongrenlu/p/9268250.html
linux环境下tomcat安装
1.安装tomcat前安装jdk(前提下) 2.下载安装包apache-tomcat-8.0.36.tar.gz 解压:tar -zxvf apache-tomcat-8.0.36.tar.gz ...
Teemo's tree problem
题目链接 : https://nanti.jisuanke.com/t/29228 There is an apple tree in Teemo's yard. It contains n node ...
650. 2 Keys Keyboard复制粘贴的次数
［抄题］: Initially on a notepad only one character 'A' is present. You can perform two operations on th ...
187. Repeated DNA Sequences重复的DNA子串序列
［抄题］: All DNA is composed of a series of nucleotides abbreviated as A, C, G, and T, for example: &qu ...
线程的使用方法start run sleep join
今天回顾了Java的线程的一些知识例1:下面代码存有详细的解释主要是继承Thread类与实现Runnable接口以及start()和run()方法 package com.date0607; / ...
JVM思考-init和clinit区别
JVM思考-init和clinit区别目录:JVM总括:目录 clinit和init的区别其实也就是Class对象初始化对象初始化的区别,详情看我上一篇博客: JVM总括四-类加载过程.双亲委派模型 ...
跑python用ThinkPad好还是MacBook好？
跑Python,那肯定是服务器操作系统最好,找个方便安装Linux的本子. 我想题主的意图应该是做Python开发吧,如果是Python开发,还要看一下开发方向,如果是网络爬虫.服务器后端编程类的,那 ...
Linux module 添加到bashrc 和临时ifort编译器以及python2和3的配置
第一步vim ~/.bashrc按键盘的i然后source /home/export/online1/bjpara/para/modules/scripts/cn-module.sh最后:x! bas ...

【Spark调优】：结合业务场景，优选高性能算子

聚合操作使用reduceByKey/aggregateByKey替代groupByKey

内存充足前提下使用mapPartitions替代普通map

内存充足前提下使用foreachPartitions替代foreach

filter之后考虑接coalesce操作

重分区+排序使用repartitionAndSortWithinPartitions替代repartition+sort操作

【Spark调优】：结合业务场景，优选高性能算子的更多相关文章

随机推荐

热门专题