“ 处理过线上问题的同学基本上都会遇到系统突然运行缓慢,CPU 100%,以及 Full GC 次数过多的问题. 当然,这些问题最终导致的直观现象就是系统运行缓慢,并且有大量的报警. 本文主要针对系统运行缓慢这一问题,提供该问题的排查思路,从而定位出问题的代码点,进而提供解决该问题的思路. 对于线上系统突然产生的运行缓慢问题,如果该问题导致线上系统不可用,那么首先需要做的就是,导出 jstack 和内存信息,然后重启系统,尽快保证系统的可用性. 这种情况可能的原因主要有两种: 代码中某个位置读取…
前言 作为后端开发工程师,当收到线上服务器CPU负载过高告警时,你会这么做?重启服务,忽略告警?不过在我看来一个合格的工程师是一定要定位到具体问题所在的,从而 fix 它.下面记录一下线上服务器 CPU 负载过高排查过程,把排查流程理清楚,以后遇到问题将会迅速定位到问题所在,快速解决. 什么样的场景会导致线上CPU负载过高? 代码层面常见的场景有: 程序陷入死循环,不停地消耗CPU 线程死锁,线程相互等待,导致假死状态,不停地消耗CPU 程序死循环场景 这里使用 JAVA 简单模拟程序死循环带来…
å. 前言 现在的大部分 Java 应用基本都是通过 Maven 进行组织的,不论是分布式应用还是单体集群应用往往都会通过一个 父 POM 加若干子 POM 完成项目的组织.然而这种多应用多模块的拆分就带来了一个巨大的体力成本 --- 发包 举个例子,说明下为什么会出现这种情况: 上面这个图中有两个应用 portal 和 dump,其中 portal 的四个包是需要对外引用的也就是说 client .domain.common.log 这几个包是两个应用共享的二方包.而共享不可避免的会带来竞争!…
背景 公司有一个数据处理线,上面的数据经过不同环境处理,然后上线到正式库.其中一个环节需要将数据进行处理然后导入到另外一个库(Sql Server).这个处理的程序是老大用python写的,处理完后进入另外一个库后某些字段出现了乱码. 比如这个字符串:1006⁃267X(2020)02⁃0548⁃10 另外一个库变成:1006?267X(2020)02?0548?10 线上人员反馈回来后老大由于比较忙,一直没有排查,然后我问了下估计是什么原因.老大说他python里面转了utf8,可能是编码问题…
线上故障主要包括cpu 磁盘 内存 网络等问题 依次排查 1.cpu 1) 先用ps找到进程pid 2) top -H -p pid 找到cpu占用高的线程 3)printf '%x\n' pid 获得16进制的nid 4) jstack pid |grep 'nid' -C5 -color 显示堆栈信息 关注WAITING TIMED_WAITING BLOCKED的信息 2.磁盘 df -hl查看磁盘状态 3.内存 free 检查内存情况 如果内存过多 通过第一步骤找到的异常来分析: Exc…
生产服务器上部署了几个java程序,突然出现了CPU100%的异常告警,你如何定位出问题? 这个问题分为两版回答!高调版对不起,我是做研发的,这个问题在生产上是不可能遇见的!因为研发是不可能直接操作生产服务器,如果贵公司能出现这个问题,应该要反思一下自己的权限控制是否合理! 面试官心里活动:装13是不是,赶紧走! 低调版这个问题我在生产上没碰到过,因为我们是没法直接操作生产环境的.只能说,在测试环境曾经遇见过.操作步骤如下,balabala… 面试官心里活动:权限控制的不错,应该是在大厂呆过.…
引言 不知道在大家面试中,有没有遇到这个问题 生产服务器上部署了几个java程序,突然出现了CPU100%的异常告警,你如何定位出问题呢? 这个问题分为两版回答! 高调版 对不起,我是做研发的,这个问题在生产上是不可能遇见的!因为研发是不可能直接操作生产服务器,如果贵公司研发能遇到这个问题,应该要反思一下自己的权限控制是否合理! 面试官心里活动:装13是不是,赶紧走! 低调版 这个问题我在生产上没碰到过,因为我们是没法直接操作生产环境的.只能说,在测试环境曾经遇见过.操作步骤如下,balabal…
知识点总结 ------------------------------------------------------------------------------------------------------------------- 步骤一:找到最耗cpu的进程 工具:top 方法: 执行top -c,显示进程运行信息列表 键入P(大写),进程按cpu使用率排序 步骤二: 找到最耗CPU的线程 工具:top 方法: top -Hp 20136,显示一个进程的线程信息列表 键入P,线程按…
不知道在大家面试中,有没有遇到这个问题: 生产服务器上部署了几个java程序,突然出现了CPU100%的异常告警,你如何定位出问题呢? 这个问题分为两版回答!高调版对不起,我是做研发的,这个问题在生产上是不可能遇见的!因为研发是不可能直接操作生产服务器,如果贵公司能出现这个问题,应该要反思一下自己的权限控制是否合理! 面试官心里活动:装13是不是,赶紧走! 低调版这个问题我在生产上没碰到过,因为我们是没法直接操作生产环境的.只能说,在测试环境曾经遇见过.操作步骤如下,balabala… 面试官心…
不知道在大家面试中,有没有遇到这个问题: 生产服务器上部署了几个java程序,突然出现了CPU100%的异常告警,你如何定位出问题呢? 这个问题分为两版回答! 高调版 对不起,我是做研发的,这个问题在生产上是不可能遇见的!因为研发是不可能直接操作生产服务器,如果贵公司能出现这个问题,应该要反思一下自己的权限控制是否合理! 面试官心里活动:装13是不是,赶紧走! 低调版 这个问题我在生产上没碰到过,因为我们是没法直接操作生产环境的.只能说,在测试环境曾经遇见过.操作步骤如下,balabala- 面…