spark 性能优化

1、内存

spark.storage.memoryFraction：很明显，是指spark缓存的大小，默认比例0.6

spark.shuffle.memoryFraction：管理executor中RDD和运行任务时的用于对象创建内存比例，默认0.2

关于这两个参数的设置，常见的一个场景就是操作关系数据库

spark 可以通过jdbc操作关系数据库，但是若是没有分散数据的依据，则将所有数据都读到driver节点上时，这时，强烈建议先看一下表的数据量和集群中对spark的内存设置参数

假设 executor memory 大小设置为2G，也就是说，spark.shuffle.memoryFraction可用内存为2G*0.2=400M，假设5W条数据大小为1M，也就是说可以读取400*50W=2000W条

当你在单节点上读取数据超过2000W而不能及时处理时，就有极大的可能oom

内存设置

spark.shuffle.memoryFraction 0.4 #适当调高

spark.storage.memoryFraction 0.4 #适当调低

2、开启外排序

spark.sql.planner.externalSort true

3、修改序列化工具

spark.serializer org.apache.spark.serializer.KryoSerializer

4、限制应用申请内核数

spark.cores.max 15

5、并行数

spark.default.parallelism 90

6、加入第三方常用类库

spark.executor.extraClassPath /opt/spark/current/lib/sqljdbc41.jar:/opt/spark/current/lib/postgresql-9.4-1202-jdbc41.jar:spark-cassandra-connector-full.jar

spark.driver.extraClassPath /opt/spark/current/lib/sqljdbc41.jar:/opt/spark/current/lib/postgresql-9.4-1202-jdbc41.jar:spark-cassandra-connector-full.jar

spark 性能优化的更多相关文章

【转载】Spark性能优化指南——高级篇
前言数据倾斜调优调优概述数据倾斜发生时的现象数据倾斜发生的原理如何定位导致数据倾斜的代码查看导致数据倾斜的key的数据分布情况数据倾斜的解决方案解决方案一:使用Hive ETL预处理数 ...
【转载】 Spark性能优化指南——基础篇
转自:http://tech.meituan.com/spark-tuning-basic.html?from=timeline 前言开发调优调优概述原则一:避免创建重复的RDD 原则二:尽可能 ...
【转】【技术博客】Spark性能优化指南——高级篇
http://mp.weixin.qq.com/s?__biz=MjM5NjQ5MTI5OA==&mid=2651745207&idx=1&sn=3d70d59cede236e ...
【转】Spark性能优化指南——基础篇
http://mp.weixin.qq.com/s?__biz=MjM5NDMwNjMzNA==&mid=2651805828&idx=1&sn=2f413828d1fdc6a ...
Spark性能优化指南——高级篇（转载）
前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为<Spark性能优化指南>的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问 ...
Spark性能优化指南——基础篇（转载）
前言在大数据计算领域,Spark已经成为了越来越流行.越来越受欢迎的计算平台之一.Spark的功能涵盖了大数据领域的离线批处理.SQL类处理.流式/实时计算.机器学习.图计算等各种不同类型的计算操作 ...
Spark性能优化指南-高级篇
转自https://tech.meituan.com/spark-tuning-pro.html,感谢原作者的贡献前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作 ...
Spark性能优化指南——基础篇
本文转自:http://tech.meituan.com/spark-tuning-basic.html 感谢原作者前言在大数据计算领域,Spark已经成为了越来越流行.越来越受欢迎的计算平台之一 ...
Spark性能优化指南——高级篇
本文转载自:https://tech.meituan.com/spark-tuning-pro.html 美团技术点评团队) Spark性能优化指南——高级篇李雪蕤 ·2016-05-12 14:4 ...
Spark记录-Spark性能优化解决方案
Spark性能优化的10大问题及其解决方案问题1:reduce task数目不合适解决方式:需根据实际情况调节默认配置,调整方式是修改参数spark.default.parallelism.通常,r ...

随机推荐

tools-eclipse-002-常用插件
1.spring 查看eclipse版本下载对应版本插件包Spring Tool Sute 地址:http://spring.io/tools/sts/all 离线包只列举了最新的,如图, 如果ec ...
nanomsg(ZeroMQ with C)
1.应用手册 https://github.com/nanomsg/nanomsg % mkdir build % cd build % cmake .. % cmake --build . % ct ...
linux ipc/its
linux进程间双向消息队列 server.c #include <stdio.h> #include <stdlib.h> #include <string.h> ...
ROC与AUC学习
全文转自:https://www.cnblogs.com/gatherstars/p/6084696.html#commentform 这篇真的讲的清楚明白!要多复习!加深记忆! 1.概述 AUC(A ...
quick-cocos2d-x + Lua 开发
quick-cocos2d-x + Lua 开发 quick-cocos2d-x + Lua 开发首页在Eclipse中搭建quick-cocos2d-x的lua开发环境. 1. 首先需要 ...
php等守护进程监控脚本（转载 http://www.9958.pw/post/php_script_scan）
此脚本用户守护监控进程的执行情况,因为有的时候,我们用各类开发语言做的守护进程可能会因为一些特殊情况被退出,所以此脚本就是为了重启这些进程代码: #!/bin/bash EMAIL='9958_pw ...
Java设计原则—开闭原则(转)
原文出自:http://www.cnblogs.com/muzongyan/archive/2010/08/05/1793454.html 开闭原则(Open Closed Principle)是Ja ...
开发者应该了解的API技术清单
近几年,API经济纷纷崛起,无论是国外还是国内,众多厂商积极开放API.开发者很多时候是要借助这些API,才能轻松构建出一款应用,极大地提高开发效率和开发质量.文中整理了一份API服务清单,内容涵盖: ...
并发容器-ConcurrentHashMap,CopyOnWriteArrayList
ConcurrentHashMap HashMap是线程非安全的,在多线程环境下,采用的是Fail-Fast快速失败机制,即当A线程在访问容器的时候,如果此时B线程修改了HashMap的结构,那么就会 ...
Ubuntu16.04安装MySQLdb
buntu 系统下进行的操作首先安装了pip工具 1 sudo apt-get install python-pip 然后使用 1 sudo pip install mysql-python 安 ...

spark 性能优化

spark 性能优化的更多相关文章

随机推荐

热门专题