记录一次线上yarn RM频繁切换的故障

周末一大早被报警惊醒，rm频繁切换

急急忙忙排查看到两处错误日志

错误信息1

ervation <memory:0, vCores:0>

2019-12-21 11:51:57,781 FATAL org.apache.hadoop.yarn.server.resourcemanager.ResourceManager: Error in handling event type APP_ATTEMPT_REMOVED to the scheduler

java.lang.NullPointerException

    at org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FSSchedulerNode.unreserveResource(FSSchedulerNode.java:88)

    at org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FSAppAttempt.unreserve(FSAppAttempt.java:589)

    at org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler.completedContainerInternal(FairScheduler.java:899)

    at org.apache.hadoop.yarn.server.resourcemanager.scheduler.AbstractYarnScheduler.completedContainer(AbstractYarnScheduler.java:564)

    at org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler.removeApplicationAttempt(FairScheduler.java:846)

    at org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler.handle(FairScheduler.java:1479)

    at org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler.handle(FairScheduler.java:117)

    at org.apache.hadoop.yarn.server.resourcemanager.ResourceManager$SchedulerEventDispatcher$EventProcessor.run(ResourceManager.java:804)

    at java.lang.Thread.run(Thread.java:748)

错误信息2

明月照我去搬砖 2019/12/21 14:51:07

2019-12-21 07:37:45,533 FATAL org.apache.hadoop.yarn.server.resourcemanager.ResourceManager: Error in handling event type APP_ATTEMPT_REMOVED to the scheduler

java.lang.NullPointerException

        at org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler.completedContainerInternal(FairScheduler.java:902)

        at org.apache.hadoop.yarn.server.resourcemanager.scheduler.AbstractYarnScheduler.completedContainer(AbstractYarnScheduler.java:564)

        at org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler.removeApplicationAttempt(FairScheduler.java:837)

        at org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler.handle(FairScheduler.java:1475)

        at org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler.handle(FairScheduler.java:117)

        at org.apache.hadoop.yarn.server.resourcemanager.ResourceManager$SchedulerEventDispatcher$EventProcessor.run(ResourceManager.java:804)

        at java.lang.Thread.run(Thread.java:748)

2019-12-21 07:37:45,534 INFO org.apache.hadoop.yarn.server.resourcemanager.ResourceManager: Exiting, bbye..

查看源码处FairScheduler

 @Override

  protected void completedContainerInternal(

      RMContainer rmContainer, ContainerStatus containerStatus,

      RMContainerEventType event) {

    try {

      writeLock.lock();

      Container container = rmContainer.getContainer();

      // Get the application for the finished container

      FSAppAttempt application =

        getCurrentAttemptForContainer(container.getId());

      ApplicationId appId =

        container.getId().getApplicationAttemptId().getApplicationId();

      if (application == null) {

        LOG.info("Container " + container + " of" +

          " finished application " + appId +

          " completed with event " + event);

        return;

      }

      // Get the node on which the container was allocated

      FSSchedulerNode node = getFSSchedulerNode(container.getNodeId());

      if (rmContainer.getState() == RMContainerState.RESERVED) {

        application.unreserve(rmContainer.getReservedPriority(), node); //这里将node上该container资源释放

      } else {

        try {

          application.containerCompleted(rmContainer, containerStatus, event);

          node.releaseContainer(rmContainer.getContainerId(), false);

          updateRootQueueMetrics();

          LOG.info("Application attempt " + application.getApplicationAttemptId()

                  + " released container " + container.getId() + " on node: " + node

                  + " with event: " + event);

        }catch (Exception e){

          LOG.error(e.getMessage(), e);

        }

      }

    } finally {

      writeLock.unlock();

    }

  }

跟进去看下

  /**

   * Remove the reservation on {@code node} at the given {@link Priority}.

   * This dispatches SchedulerNode handlers as well.

   */

  public void unreserve(Priority priority, FSSchedulerNode node) {

    RMContainer rmContainer = node.getReservedContainer();

    unreserveInternal(priority, node);

    node.unreserveResource(this);

    clearReservation(node);

    getMetrics().unreserveResource(node.getPartition(),

        getUser(), rmContainer.getContainer().getResource());

  }

  @Override

  public synchronized void unreserveResource(

      SchedulerApplicationAttempt application) {

    // Cannot unreserve for wrong application...

    ApplicationAttemptId reservedApplication =

        getReservedContainer().getContainer().getId().getApplicationAttemptId(); //获取不到该container的attemptId 报空指针

    if (!reservedApplication.equals(

        application.getApplicationAttemptId())) {

      throw new IllegalStateException("Trying to unreserve " +

          " for application " + application.getApplicationId() +

          " when currently reserved " +

          " for application " + reservedApplication.getApplicationId() +

          " on node " + this);

    }

    setReservedContainer(null);

    this.reservedAppSchedulable = null;

  }

第二处报错是

rmContainer为null 了对removeapplicationattent的调用和对相同尝试的moveApplication的处理顺序很短则应用程序尝试仍将包含队列引用，
但已从队列的应用程序列表中删除如果对removeapplicationattent的两个调用连续出现，则应用程序仍将包含队列引用，但已从队列的应用程序列表
中删除在这两种情况下，第二个调用必须在进行removeApplication调
用之前进入。

其实就是重复释放container 但container已经在该节点上释放了 有一个状态不一致问题
这边是用的写锁 当一个线程已经读到containerId 另一线程释放掉 再次释放 就会出现异常

修改方法一

 /**

   * Clean up a completed container.

   */

  @Override

  protected synchronized void completedContainerInternal(

      RMContainer rmContainer, ContainerStatus containerStatus,

      RMContainerEventType event) {

    try {

     // writeLock.lock();//注释写锁 改用重锁

      Container container = rmContainer.getContainer();

      // Get the application for the finished container

      FSAppAttempt application =

        getCurrentAttemptForContainer(container.getId());

      ApplicationId appId =

        container.getId().getApplicationAttemptId().getApplicationId();

      if (application == null) {

        LOG.info("Container " + container + " of" +

          " finished application " + appId +

          " completed with event " + event);

        return;

      }

修改方法二

// Get the node on which the container was allocated

      FSSchedulerNode node = getFSSchedulerNode(container.getNodeId());

      try {

      if (rmContainer.getState() == RMContainerState.RESERVED) {

        application.unreserve(rmContainer.getReservedPriority(), node);

      } else {

       // try {  //将try移到上方  覆盖unreserve方法

  application.containerCompleted(rmContainer, containerStatus, event);
 node.releaseContainer(rmContainer.getContainerId(), false);
 updateRootQueueMetrics(); 
LOG.info("Application attempt " + application.getApplicationAttemptId() + " released container " + container.getId(
) + " on node: " + node + " with event: " + event);
 }catch (Exception e){
 LOG.error(e.getMessage(), e); //将该异常处理掉而不是抛出
} }

记录一次线上yarn RM频繁切换的故障的更多相关文章

Linux(2)---记录一次线上服务 CPU 100%的排查过程
Linux(2)---记录一次线上服务 CPU 100%的排查过程当时产生CPU飙升接近100%的原因是因为项目中的websocket时时断开又重连导致CPU飙升接近100% .如何排查的呢是通过 ...
记录一次线上bug
记录一次线上bug,总的来说就是弱网和重复点击.特殊值校验的问题. 测试场景一: 在3g网络或者使页面加载速度需要两秒左右的时候,输入学号,提交学生的缴费项目,提交完一个学生的缴费后, ...
一次性搞清楚线上CPU100%，频繁FullGC排查套路
“ 处理过线上问题的同学基本上都会遇到系统突然运行缓慢,CPU 100%,以及 Full GC 次数过多的问题. 当然,这些问题最终导致的直观现象就是系统运行缓慢,并且有大量的报警. 本文主要针对系统 ...
原创记录一次线上Mysql慢查询问题排查过程
背景前段时间收到运维反馈,线上Mysql数据库凌晨时候出现慢查询的报警,并把原始sql发了过来: --去除了业务含义的sql update test_user set a=1 where id=1; ...
记录一次 hadoop yarn resourceManager无故切换的故障
某日收到告警线上集群rm切换观察resourcemanager 日志报错如下这行不明显再看看其他日志报错在 app attempt_removed 时候发生了空指针错误 break; ca ...
前端使用Git 切换分支查看线上远程，本地切换
想要使用Git切换线上分支时先得先查看线上分支 git branch -a //查看线上分支 git branch //查看本地分支这是线上的分支图(当前是master) 知道有那些分支就可以进行 ...
【JVM】记录一次线上SWAP偏高告警的故障分析过程
近期遇到一个堆外内存导致swap飙高的问题,这类问题比较罕见,因此将整个排查过程记录下来了现象描述最近1周线上服务器时不时出现swap报警(swap超过内存10%时触发报警,内存是4G,因此swa ...
记录一次线上实施snmp
公司要实施一个部级的项目,我们公司的提供的产品要对接下客户的一个平台监控平台,该监控平台使用snmp,我们公司的产品不支持snmp,所以由我负责在现网实施snmp,记录这次现网一.生成编译规则 1. ...
记录一次线上OOM调优经历
现状: k8s 的一个pod 有32G内存,每秒产生新对象的峰值在900Mb ---- 1900Mb(根据jstat计算Eden区获得) . 修改之前的参数就一个命令行参数是-Xmx31g; 我修改 ...

随机推荐

CodeChef October Lunchtime 2019 Division 2
HIT: Khaled in HIT 题目描述 Khaled 教练是 HIT(Hag Institute of Technology)一位名师.但是,他有一些困扰. 最近,Khaled 教练正在教一门 ...
Drainage Ditches （HDU - 1532）（最大流）
HDU - 1532 题意:有m个点,n条管道,问从1到m最大能够同时通过的水量是多少? 题解:最大流模板题. #include <iostream> #include <algor ...
cdh版hbase构建Phoenix 遇到的坑
Phoenix 构建cdh版hbase遇到的坑 1. 安装phoenix 下载:在github上下载对应版本https://github.com/apache/phoenix 解压:略编译: 修改根 ...
LR性能测试课程及视频教程
LR性能测试课程及视频教程课程如下: 1.性能测试核心技术-2.性能测试脚本开发-3.LR场景设计-4.LR指标分析. 1.性能测试是通过自动化的测试工具模拟多种正常.峰值以及异常负载条件来对系统的各 ...
Vs中包含目录、库目录、附加包含目录、附加库目录、附加依赖项之详解
VS项目中的包含目录.库目录.附加包含目录.附加库目录.附加依赖项均在"项目->属性->配置属性"下进行配置,具体说明如下: VC++目录: 包含目录:寻找#inclu ...
tar遇到error:"Error exit delayed from previous errors"的几种可能原因
1.使用root用户解压压缩包 2.赋予权限,sudo chmod 777 xxx.tar.gz 参考: https://blog.csdn.net/iamwrr/article/details/49 ...
JavaWeb_(Mybatis框架)动态sql_七
系列博文: JavaWeb_(Mybatis框架)JDBC操作数据库和Mybatis框架操作数据库区别_一传送门 JavaWeb_(Mybatis框架)使用Mybatis对表进行增.删.改.查操作_ ...
MySQL新特性文档型数据库
mongodb在文档型数据库这方面一直做的很好,也发展了很多年,MySQL作为一个比较大众的数据库也慢慢支持了该特性,下面介绍一下MySQL支持文档型数据库的简单操作. 环境: 主机名 IP 系统软 ...
mysql8.0.17gtid方式实现主从同步
数据库的安装: [root@node1 8.0.17]# rpm -ivh mysql-community-common-8.0.17-1.el7.x86_64.rpm 警告:mysql-commun ...
Redis 的几种常见使用方式
常见使用方式 Redis 的几种常见使用方式包括: Redis 单副本 Redis 多副本(主从) Redis Sentinel(哨兵) Redis Cluster Redis 自研各种使用方式的优 ...

记录一次线上yarn RM频繁切换的故障

记录一次线上yarn RM频繁切换的故障的更多相关文章

随机推荐

热门专题