通过DeveloperApi获取spark程序执行进度及异常

在应用spark时，经常要获取任务的执行进度，可以参照jobProgressListener的设计来完成该功能。

以下代码仅供参考，欢迎交流。

效果显示：

代码：

package org.apache.spark.zpc.listener

import org.apache.spark.Logging

import org.apache.spark.scheduler._

import scala.collection.mutable

/**

  * Spark 的 DeveloperApi 提供针对app, job, task的执行监听。

  * 通过该监听，可以实现：

  * 1.任务执行进度的粗略计算。

  * 2.执行异常失败时，获取异常信息。

  * 3.获取app启动的appId,从而可以控制杀死任务。

  * 4.自定义进度和异常的handle处理（如控制台打印，保存db，或jms传输到web等终端

  *

  * @param jobNum Application中Job个数。可以通过代码的提交查看spark日志查看到。

  */

abstract class SparkAppListener(jobNum: Int) extends SparkListener with Logging {

  //Job和Job信息（包括总task数，当前完成task数，当前Job百分比）的映射

  private val jobToJobInfo = new mutable.HashMap[Int, (Int, Int, Int)]

  //stageId和Job的映射，用户获取task对应的job

  private val stageToJob = new mutable.HashMap[Int, Int]

  //完成的job数量

  private var finishJobNum = 0

  private var hasException: Boolean = false

  override def onApplicationStart(applicationStart: SparkListenerApplicationStart): Unit = synchronized {

    val appId = applicationStart.appId

    //记录app的Id，用于后续处理：

    //如：yarn application  -kill  appId

    //handleAppId(appId)

  }

  //获取job的task数量，初始化job信息

  override def onJobStart(jobStart: SparkListenerJobStart) = synchronized {

    val jobId = jobStart.jobId

    val tasks = jobStart.stageInfos.map(stageInfo => stageInfo.numTasks).sum

    jobToJobInfo += (jobId ->(tasks, 0, 0))

    jobStart.stageIds.map(stageId => stageToJob(stageId) = jobId)

  }

  //task结束时，粗略估计当前app执行进度。

  //估算方法：当前完成task数量/总task数量。总完成task数量按（job总数*当前job的task数。）

  override def onTaskEnd(taskEnd: SparkListenerTaskEnd) = synchronized {

    val stageId = taskEnd.stageId

    val jobId = stageToJob.get(stageId).get

    val (totalTaskNum: Int, finishTaskNum: Int, percent: Int) = jobToJobInfo.get(jobId).get

    val currentFinishTaskNum = finishTaskNum + 1

    val newPercent = currentFinishTaskNum * 100 / (totalTaskNum * jobNum)

    jobToJobInfo(jobId) = (totalTaskNum, currentFinishTaskNum, newPercent)

    if (newPercent > percent) {

      //hanlde application progress

      val totalPercent = jobToJobInfo.values.map(_._3).sum

      if (totalPercent <= 100){

//        handleAppProgress(totalPercent)

      }

    }

  }

  //job 结束，获取job结束的状态，异常结束可以将异常的类型返回处理。

  // handle处理自定义，比如返回给web端，显示异常log。

  override def onJobEnd(jobEnd: SparkListenerJobEnd) = synchronized {

    jobEnd.jobResult match {

      case JobSucceeded => finishJobNum += 1

      case JobFailed(exception) if !hasException =>

        hasException = true

        // handle application failure

//        handleAppFailure(exception)

      case _ =>

    }

  }

  //app结束时，将程序执行进度标记为 100%。

  //缺陷：SparkListenerApplicationEnd没有提供app的Exception的获取。这样，当程序在driver端出错时，

  //获取不到出错的具体原因返回给前端，自定义提示。比如（driver对app中的sql解析异常，还没有开始job的运行）

  /*** driver 端异常可通过主程序代码里 try catch获取到 ***/

  override def onApplicationEnd(applicationEnd: SparkListenerApplicationEnd) = synchronized {

    val totalJobNum = jobToJobInfo.keySet.size

    val totalPercent = jobToJobInfo.values.map(_._3).sum

    //handle precision lose

    if (!hasException && totalPercent == 99) {

//      handleAppProgress(100)

    }

    val msg = "执行失败"

    if(totalJobNum == 0){

      handleAppFailure(new Exception(msg))

    }

  }

}

博客记录是个好习惯，计划一下以后几期的博客。

由浅入深，围绕机器学习的主题，来学习介绍。

模型评估与选择
线性模型
决策树
神经网络
支持向量机
贝叶斯分类器
　　贝叶斯决策论
　　极大似然估计
　　朴素贝叶斯分类器
　　半朴素贝叶斯分类器
　　贝叶斯网
集成学习
　　个体与集成
　　Boosting
　　Bagging与随机森林
　　Bagging
　　随机森林
聚类
降维与度量学习
特征选择与稀疏学习
概率图模型
　　隐马尔可夫模型
　　马尔可夫随机场
规则学习
强化学习
深度学习系列

通过DeveloperApi获取spark程序执行进度及异常的更多相关文章

Yii2获取当前程序执行的sql语句
1.Yii2获取当前程序执行的sql语句: $query = model::find(); $dataProvider = new ActiveDataProvider([ ...
Spark记录（二）：Spark程序的生命周期
本文以Spark执行模式中最常见的集群模式为例,详细的描述一下Spark程序的生命周期(YARN作为集群管理器). 1.集群节点初始化集群刚初始化的时候,或者之前的Spark任务完成之后,此时集群中 ...
大数据技术之_19_Spark学习_01_Spark 基础解析 + Spark 概述 + Spark 集群安装 + 执行 Spark 程序
第1章 Spark 概述1.1 什么是 Spark1.2 Spark 特点1.3 Spark 的用户和用途第2章 Spark 集群安装2.1 集群角色2.2 机器准备2.3 下载 Spark 安装包2 ...
【原创】大叔经验分享（19）spark on yarn提交任务之后执行进度总是10%
spark 2.1.1 系统中希望监控spark on yarn任务的执行进度,但是监控过程发现提交任务之后执行进度总是10%,直到执行成功或者失败,进度会突然变为100%,很神奇, 下面看spark ...
使用Jacoco获取 Java 程序的代码执行覆盖率
Jacoco是Java Code Coverage的缩写,顾名思义,它是获取Java代码执行覆盖率的一个工具,通常用它来获取单元测试覆盖率.它通过分析Java字节码来得到代码执行覆盖率,因此它还可以分 ...
通过DT10获取程序执行过程中的实时覆盖率
DT10是新一代的动态测试工具,可以长时间跟踪记录目标程序执行情况,获取目标程序动态执行数据,帮助进行难于重现的Bug错误分析,覆盖率检测,性能测试,变量跟踪等等功能. 系统测试覆盖率,通常是用于判断 ...
如何在mysql命令窗口获取到程序正在执行的sql语句
步骤: 1.进入mysql的命令窗口: 2.运行use information_schema; 3.运行select * from PROCESSLIST where info is not null ...
Spark认识&环境搭建&运行第一个Spark程序
摘要:Spark作为新一代大数据计算引擎,因为内存计算的特性,具有比hadoop更快的计算速度.这里总结下对Spark的认识.虚拟机Spark安装.Spark开发环境搭建及编写第一个scala程序.运 ...
关于使用python向qq好友发送消息(对爬虫的作用----当程序执行完毕或者报错无限给自己qq发送消息，直到关闭)
以前看到网上一些小程序,在处理完事物后会自动发送qq消息,但是一直搞不懂是说明原理.也在网上找过一些python登陆qq发送消息的文字,但是都太复杂了.今天偶然看到一篇文章,是用python调用win ...

随机推荐

easyui 初体验
简介 jQuery EasyUI是一组基于jQuery的UI插件集合体,而jQuery EasyUI的目标就是帮助web开发者更轻松的打造出功能丰富并且美观的UI界面.开发者不需要编写复杂的javas ...
51nod贪心算法入门-----任务分配问题
任务执行顺序有N个任务需要执行,第i个任务计算时占R[i]个空间,而后会释放一部分,最后储存计算结果需要占据O[i]个空间(O[i] < R[i]). 分析: 可以抽象成,从一个整数开始,每次 ...
OpenSessionInViewFilter与org.springframework.dao.InvalidDataAccessApiUsageException
报错:org.springframework.dao.InvalidDataAccessApiUsageException: Write operations are not allowed in r ...
CSS学习_属性选择器
CSS选择器参考 [attribute]——选取带有指定属性的元素: [attribute=value]——选取带有指定属性和值的元素: [attribute~=value]——选取属性值中包含指定词 ...
JAVA技术体系发展路线
JAVA技术体系 1.1 Java程序员 ·高级特性反射.泛型.注释符.自动装箱和拆箱.枚举类.可变参数.可变返回类型.增强循环.静态导入 ·核心编程 IO.多线程.实体类.集合类.正则表达式.XM ...
Java学习--String、StringBuffer与StringBuilder
String并不是基本数据类型,而是一个对象,并且是不可变的对象.String类为final型的不可被继承,而且通过查看JDK文档会发现几乎每一个修改String对象的操作,实际上都是创建了一个全新的 ...
SDC(7) -- 关于使能信号的时序放松
先看下图: 假如使能信号的有效时间为时钟周期的2倍,此时需要使用 set_multicycle_path 放松使能信号 sel_xy_nab ,若是每个寄存器使能端都约束一遍,那就太麻烦了: 这时可以 ...
Catch Application Exceptions in a Windows Forms Application
You need to handle the System.Windows.Forms.Application.ThreadException event for Windows Forms. Thi ...
部分视图调用方法总结（Action 、 RenderAction 、 Partial 、 RenderPartial）
Action . RenderAction . Partial . RenderPartial 1.Action . RenderAction Action 方法以字符串的形式返回子视图,可以直接被呈 ...
CF192div2-330B - Road Construction
题意:给定n个城市并建造马路是的两两到达,且距离不能超过2 因为0<=m<n/2,所以必然存在某个城市是无限制的,那就可以以这个无限制的城市为中心建造.... 只要想通了真尼玛简单.... ...

通过DeveloperApi获取spark程序执行进度及异常

通过DeveloperApi获取spark程序执行进度及异常的更多相关文章

随机推荐

热门专题