yarn application -kill application_id yarn kill 超时任务脚本
需求:kill 掉yarn上超时的任务,实现不同队列不同超时时间的kill机制,并带有任务名的白名单功能
此为python脚本,可配置crontab使用
# _*_ coding=utf-8 _*_
# !/usr/bin/python
import re
import commands
import time
run_app_arr = []
timeout_app_arr = []
ONE_HOURE = 1
THREE_HOURE = 3
TEST_QUEUE_NAME = ['hue', 'etl-test']
ONLINE_QUEUE_NAME = ['default']
KILL_WHITE_LIST = ['org.apache.spark.sql.hive.thriftserver.HiveThriftServer2']
DINGDING_URL = 'xxx'
ding_cmd = """ curl %s -H 'Content-Type: application/json' -d '{"msgtype": "text", "text": {"content": "== YARN OVERTIME JOB KILL 告警 ==\n\n 当前时间: %s \n kill_app_id: %s \n kill_app_name: %s \n kill_app_queue: %s "}}' """
f = None
try:
f = open('/home/hadoop/autokillhadoopjob/check_timeout_job.log', 'a')
commond = '. /etc/profile && yarn application -list | grep "http://" |grep "RUNNING" |cut -f1,2,5'
# 获得正在运行job的id,name,queue 加到 run_app_arr
status, output = commands.getstatusoutput(commond)
f.write('#' * 50 + '\n')
f.write('=> start_time: %s \n' % (time.strftime('%Y-%m-%d %H:%M:%S')))
if status == 0 :
for line in output.split('\n'):
if line.startswith('application_'):
app_line = re.split('\t', line)
running_app_id = app_line[0].strip()
running_app_name = app_line[1].strip()
app_queue = app_line[2].strip()
# 根据所在队列 筛选出app加到数组中
if app_queue in TEST_QUEUE_NAME or app_queue in ONLINE_QUEUE_NAME:
run_app_arr.append((running_app_id, running_app_name, app_queue))
else:
f.write('yarn -list 执行失败. status: %s.'%(status))
# 遍历所有队列的running job,如有超时加到timeout_app_arr
for run_app in run_app_arr:
running_app_id = run_app[0]
running_app_name = run_app[1]
running_app_queue = run_app[2]
commond = ". /etc/profile && yarn application -status " + running_app_id + "| grep 'Start-Time' | awk -F ':' '{print $2}'"
status, output = commands.getstatusoutput(commond)
if status == 0:
for line in output.split('\n'):
start_timestamp = line.strip()
if start_timestamp.isdigit():
# 计算任务耗时
elapsed_time = time.time() - int(start_timestamp) / 1000
cost_time = round(elapsed_time / 60 / 60, 2)
f.write('=> cost_time: %sh \n' % (cost_time))
# print cost_hour
# 筛选出超时的job 加到数据组中/过滤掉白名单任务
if running_app_name not in KILL_WHITE_LIST:
if (running_app_queue in TEST_QUEUE_NAME and cost_time > ONE_HOURE) \
or (running_app_queue in ONLINE_QUEUE_NAME and cost_time > THREE_HOURE):
# if cost_hour > 0:# 测试
f.write('=> timeout app => %s # %s # %s\n' % (running_app_id, running_app_name, running_app_queue))
timeout_app_arr.append((running_app_id, running_app_name, running_app_queue))
else:
f.write('yarn -status 执行失败. status: %s.'%(status))
if len(timeout_app_arr) == 0:
f.write('=> no timeout job.\n')
# kill掉超时的job 并dingding报警
for kill_app in timeout_app_arr:
kill_app_id = kill_app[0]
kill_app_name = kill_app[1]
kill_app_queue = kill_app[2]
commond = '. /etc/profile && yarn application -kill ' + kill_app_id
status, output = commands.getstatusoutput(commond)
if status == 0:
f.write('=> kill app sucessfully: %s # %s # %s.\n' % (kill_app_id, kill_app_name, kill_app_queue))
current_time = time.strftime('%Y-%m-%d %H:%M:%S')
cmd = ding_cmd % (DINGDING_URL, current_time, kill_app_id, kill_app_name, kill_app_queue)
commands.getstatusoutput(cmd)
else:
f.write('=> kill app failed: %s # %s # %s.\n' % (kill_app_id, kill_app_name, kill_app_queue))
f.write('=> stop_time: %s \n' % (time.strftime('%Y-%m-%d %H:%M:%S')))
except Exception as e:
f.write('=> Exception: %s \n' % (e.message))
finally:
if f:
f.close()
yarn application -kill application_id yarn kill 超时任务脚本的更多相关文章
- hadoop job -kill 和 yarn application -kill 区别
hadoop job -kill 调用的是CLI.java里面的job.killJob(); 这里会分几种情况,如果是能查询到状态是RUNNING的话,是直接向AppMaster发送kill请求的.Y ...
- hadoop job -kill 与 yarn application -kii(作业卡了或作业重复提交或MapReduce任务运行到running job卡住)
问题详情 解决办法 [hadoop@master ~]$ hadoop job -kill job_1493782088693_0001 DEPRECATED: Use of this script ...
- yarn application命令介绍
yarn application 1.-list 列出所有 application 信息 示例:yarn application -list 2.-appStates <Stat ...
- kill 进程卡住,超时kill方法
还是有漏洞 ,万一 working.py未超时, kill_job.sh 会不会杀死别人的进程啊start.sh#!/bin/bash python working.py &python wo ...
- spark-shell启动报错:Yarn application has already ended! It might have been killed or unable to launch application master
spark-shell不支持yarn cluster,以yarn client方式启动 spark-shell --master=yarn --deploy-mode=client 启动日志,错误信息 ...
- yarn application ID 增长达到10000后
Job, Task, and Task Attempt IDs In Hadoop 2, MapReduce job IDs are generated from YARN application I ...
- Yarn application has already exited with state FINISHED
如果在运行spark-sql时遇到如下这样的错误,可能是因为yarn-site.xml中的配置项yarn.nodemanager.vmem-pmem-ratio值偏小,它的默认值为2.1,可以尝试改大 ...
- spark利用yarn提交任务报:YARN application has exited unexpectedly with state UNDEFINED
spark用yarn提交任务会报ERROR cluster.YarnClientSchedulerBackend: YARN application has exited unexpectedly w ...
- 【深入浅出 Yarn 架构与实现】3-1 Yarn Application 流程与编写方法
本篇学习 Yarn Application 编写方法,将带你更清楚的了解一个任务是如何提交到 Yarn ,在运行中的交互和任务停止的过程.通过了解整个任务的运行流程,帮你更好的理解 Yarn 运作方式 ...
随机推荐
- oracle--合并行数据
select to_char(wmsys.wm_concat(patname)) as WaitPatientName from (SELECT * FROM (SELECT ROW_NUMBER() ...
- Scrapy环境安装
开始安装前,建议安装Visual C++ 2015 Build Tools,否则会一直出现如下提示: 下载地址:http://landinghub.visualstudio.com/visual-cp ...
- 在CAD二次开发中使用状态条按钮
Pane pane = new Pane(); pane.Enabled = true; pane.Text = "状态条按钮"; pane.ToolTipText = " ...
- Python 里面什么时候用一个=,什么时候用两个=
赋值用= i != j != k >>>> ...
- bzoj2856: [ceoi2012]Printed Circuit Board
Description 给出一个N个顶点的简单多边形,对于每个顶点,假如它和原点连成的线段只在这个顶点处和多边形相交,就称为满足要求的顶点.你的任务是输出所有满足要求的顶点编号. Input 第一行一 ...
- 【IIS错误】未能加载文件或程序集“AAAAA”或它的某一个依赖项。试图加载格式不正确的程序。
未能加载文件或程序集“AAAAA”或它的某一个依赖项.试图加载格式不正确的程序. 说明: 执行当前 Web 请求期间,出现未经处理的异常.请检查堆栈跟踪信息,以了解有关该错误以及代码中导致错误的出处的 ...
- vue-router配合vue-cli的实例
前面在说到vue-router的时候,都是用最简单的方式说明用法的,但是在实际项目中可能会有所出入,所以,今天就结合vue脚手架来展示项目中的vue-router的用法. 创建项目 首先需要使用脚手架 ...
- java1.8新特性(一)
一直在更新java 版本,原来也没有关注java版本的变化 引入的一些新的api 引起注意的还是 关于一些并发包的使用,那时候才对每个版本的特性 去了解了一下,虽然 不一定都用上了,但是不管学习什 ...
- K近邻(K Nearest Neighbor-KNN)原理讲解及实现
算法原理 K最近邻(k-Nearest Neighbor)算法是比较简单的机器学习算法.它采用测量不同特征值之间的距离方法进行分类.它的思想很简单:如果一个样本在特征空间中的k个最近邻(最相似)的样本 ...
- 廖雪峰Java4反射与泛型-2注解-2定义注解
1.定义注解 使用@interface定义注解Annotation 注解的参数类似无参数方法 可以设定一个默认值(推荐) 把最常用的参数命名为value(推荐) 2.元注解 2.1Target使用方式 ...