一次Spark应用程序参数优化案例】的更多相关文章

并行度 对于*ByKey等需要shuffle而生成的RDD,其Partition数量依如下顺序确定:1. 方法的第二个参数 > 2. spark.default.parallelism参数 > 3. 所有依赖的RDD中,Partition最多的RDD的Partition的数量. 对于其他的RDD则其依赖于父RDD的分区个数.对于读取Hadoop文件的RDD,其默认的分区个数是HDFS块个数.同时textFile函数也接受参数,指定分区个数,但不能小于HDFS块个数——不使用HDFS块个数. 优…
Spark集群之yarn提交作业优化案例 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.启动Hadoop集群 1>.自定义批量管理脚本 [yinzhengjie@s101 ~]$ more `which xzk.sh` #!/bin/bash #@author :yinzhengjie #blog:http://www.cnblogs.com/yinzhengjie #EMAIL:y1053419035@qq.com #判断用户是否传参 ];then echo "无…
1,看您有维护博客,还利用业余时间著书,在技术输出.自我提升以及本职工作的时间利用上您有没有什么心得和大家分享?(也可以包含一些您写书的小故事.)回答:在工作之余能够写博客.著书主要对技术的坚持和热爱.自己平时除了工作时间回到家还得陪家人,用于自己学习的时间并不算多,自己每天在上下班的班车会看自己感兴趣的书或者视频,一天下来大概有一个多小时,在下班后会抽出两个多小时动手做实验或者写博客,当然节假日会有更多的时间用于学习和写东西.回顾自己写博客和写书的过程,开始的时候和大家一样都是很痛苦,有时候很…
只有满怀自信的人,能在任何地方都怀有自信,沉浸在生活中,并认识自己的意志. 前言 最近公司有一个生产的小集群,专门用于运行spark作业.但是偶尔会因为nn或dn压力过大而导致作业checkpoint操作失败进而导致spark 流任务失败.本篇记录从应用层面对spark作业进行优化,进而达到优化集群的作用. 集群使用情况 有数据的目录以及使用情况如下: 目录 说明 大小 文件数量 数据数量占比 数据大小占比 /user/root/.sparkStaging/applicationIdxxx sp…
记得在自己学习数据库知识的时候特别喜欢看案例,因为优化的手段是容易掌握的,但是整体的优化思想是很难学会的.这也是为什么自己特别喜欢看案例,今天也开始分享自己做的优化案例. 最近一直很忙,博客产出也少的可怜,今天整理了一下自己做过优化或各种方案的客户已经超过100家了,今天分享的案例算是在这些客户中比较典型的了!没有什么高大上都是常见的问题!在之前的博客中都有过提及,那么本篇我们就结合之前的技术点来看看这个案例.学习优化手段的看官们可以参见我的优化系列: SQL SERVER全面优化-------…
MySQL优化案例 Mysql5.1大表分区效率测试 Mysql5.1大表分区效率测试MySQL | add at 2009-03-27 12:29:31 by PConline | view:60, comment:0 mysql5.1开始支持数据表分区了,原来的分表可以不用了,分表的不足在于多表查询不方便.呵呵,下面来简单测试下表分区的查询效率. 1.用来测试的数据为discuz论坛的数据库,表为cdb_posts表,数据量为1500多万条mysql> select count(*) fro…
create or replace procedure SP_GET_NEWEST_CAPTCHA( v_ACCOUNT_ID in VARCHAR2, --接收短信的手机号 v_Tail_num in VARCHAR2, --尾号 v_result out VARCHAR2, --结果 v_CAPTCHA out varchar2 --验证码 ) is l_recvmsgid NUMBER; begin --取出验证码 if (not ((v_Tail_num is null) or (v_T…
老李案例分享:Weblogic性能优化案例 POPTEST的测试技术交流qq群:450192312 网站应用首页大小在130K左右,在之前的测试过程中,其百用户并发的平均响应能力在6.5秒,性能优化后提升两秒左右,结果在5秒内: 一.操作系统: 机器名    CPU    内存    软件环境(操作系统/应用软件)    备注应用服务器    3.07GHz*2    8GB    Linux    1台应用服务器(虚拟机)测试机    2.50GHz    4GB    WIN7    1台测…
1.Hadoop计算框架的特点 数据量大不是问题,数据倾斜是个问题. jobs数比较多的作业效率相对比较低,比如即使有几百万的表,如果多次关联多次汇总,产生十几个jobs,耗时很长.原因是map reduce作业初始化的时间是比较长的. sum,count,max,min等UDAF,不怕数据倾斜问题,hadoop在map端的汇总并优化,使数据倾斜不成问题. count(distinct),在数据量大的情况下,效率较低,如果是多count(distinct)效率更低,因为count(distinc…
写在前面 记得在自己学习数据库知识的时候特别喜欢看案例,因为优化的手段是容易掌握的,但是整体的优化思想是很难学会的.这也是为什么自己特别喜欢看案例,今天也分享自己做的优化案例. 之前分享过OA系统.HIS系统,今天我们来一个最常见的ERP,ERP系统各行各业都在用,不同行业也有不同的特点,博主在做研发的时候还自己写过ERP也算是比较熟悉了. 不管是本文分享的零售类,还是鞋服门店.家居.汽车.地产等等,也不管是某友.某碟,ERP有一个共同的特点,单据流程长,业务复杂,热点表明显,数据量大,涉及众多…