Linux(2)---记录一次线上服务 CPU 100%的排查过程

当时产生CPU飙升接近100%的原因是因为项目中的websocket时时断开又重连导致CPU飙升接近100% 。如何排查的呢 是通过日志输出错误信息: 得知websocket时时重新

连接的信息,然后找到原因 解决了。

当然这里幸好能通过日志大致分析出原因 那么我就在思考如果日志没有告诉任何信息 但线上CPU还是接近100%那么如何排查呢。所以学习了下排查过程。

通过查阅资料并实践后,这里总结了两种办法。第一种博客满天飞的方法 通过top命令 第二种非常好用 通过大牛写的脚本排查

一、top命令排查

1、命令四部曲

(1)通过top命令,知道CPU最高的进程

  1. top

(2)具体查看java中哪个线程一直在占用cpu时间(这里我的java进程号是: 8752)

  1. #java进程ID进行CPU占用排查(sort -rn 以数值的方式进行逆序排列)
  2. ps -mp 8752 -o THREAD,tid,time | sort -rn | more

(3)根据2中查找到的CPU最高的排序中的结果,找出几个占用cpu时间比较高的TID,将线程ID转换为16进制

  1. printf "%x\n" TID

(4)再使用jstack命名查询是哪个线程

  1. #8752是java进程ID,6669是第三步线程ID转换的16进制
  2. jstack 8752 |grep 6669 -A 30

2、案例

(1) top命令

(2)ps命令

(3)printf命令

(4)jstack命令

二、show-busy-java-threads.sh脚本

上面的 4 步虽然能够排查问题,但总的还是还是太繁琐耗时了,于是有大神写了个脚本,在有问题的时候一键定位,能够妙计找到问题。这个作者是一个叫淘宝的oldratlee 同学

1、脚本使用说明

怎么使用呢?可以看作者的GitHub地址中的文档说明,而且里面也有相应脚本:Github

我们可以把这个git项目clone到Linux环境中(说明:目前这个脚本只支持linux环境)

  1. git clone https://github.com/oldratlee/useful-scripts.git #将下面下载到linux环境中。

这里也整理一些该脚本的常用命令

  1. show-busy-java-threads.sh
  2. # 从 所有的 Java进程中找出最消耗CPU的线程(缺省5个),打印出其线程栈。
  3. show-busy-java-threads.sh -c <要显示的线程栈数>
  4. show-busy-java-threads.sh -c <要显示的线程栈数> -p <指定的Java Process>
  5. # -F选项:执行jstack命令时加上-F选项(强制jstack),一般情况不需要使用
  6. show-busy-java-threads.sh -p <指定的Java Process> -F
  7. show-busy-java-threads.sh -s <指定jstack命令的全路径>
  8. # 对于sudo方式的运行,JAVA_HOME环境变量不能传递给root,
  9. # 而root用户往往没有配置JAVA_HOME且不方便配置,
  10. # 显式指定jstack命令的路径就反而显得更方便了
  11. show-busy-java-threads.sh -a <输出记录到的文件>
  12. show-busy-java-threads.sh -t <重复执行的次数> -i <重复执行的间隔秒数>
  13. # 缺省执行一次;执行间隔缺省是3秒
  14. ##############################
  15. # 注意:
  16. ##############################
  17. # 如果Java进程的用户 与 执行脚本的当前用户 不同,则jstack不了这个Java进程。
  18. # 为了能切换到Java进程的用户,需要加sudo来执行,即可以解决:
  19. sudo show-busy-java-threads.sh

2、案例说明

为了反应真实性,找了个能让CPU飙升100%的代码打包成jar在线上跑,这里采用定时任务让它跑起来。

  1. //java 正则表达式回溯造成 CPU 100%
  2. @Service
  3. public class GateTrigger {
  4. @Scheduled(fixedDelay = 1 * 1000)
  5. public void startSummary() {
  6. String[] patternMatch = {"([\\w\\s]+)+([+\\-/*])+([\\w\\s]+)",
  7. "([\\w\\s]+)+([+\\-/*])+([\\w\\s]+)+([+\\-/*])+([\\w\\s]+)"};
  8. List<String> patternList = new ArrayList<String>();
  9. patternList.add("Avg Volume Units product A + Volume Units product A");
  10. patternList.add("Avg Volume Units / Volume Units product A");
  11. patternList.add("Avg retailer On Hand / Volume Units Plan / Store Count");
  12. patternList.add("Avg Hand Volume Units Plan Store Count");
  13. patternList.add("1 - Avg merchant Volume Units");
  14. patternList.add("Total retailer shipment Count");
  15. for (String s : patternList) {
  16. for (int i = 0; i < patternMatch.length; i++) {
  17. Pattern pattern = Pattern.compile(patternMatch[i]);
  18. Matcher matcher = pattern.matcher(s);
  19. System.out.println(s);
  20. //CPU飙升根源
  21. if (matcher.matches()) {
  22. System.out.println("Passed");
  23. } else
  24. System.out.println("Failed;");
  25. }
  26. }}
  27. }

(1)top命令 发现CPU的确飙升了

(2)执行脚本

  1. bash show-busy-java-threads.sh

(3)看后台运行结果



......

发现一下子就定位问题了,不得不说缺少很方便,快捷。

参考

1、Java死锁排查和Java CPU 100% 排查的步骤整理

2、线上服务 CPU 100%?一键定位 so easy!

```
如果一个人充满快乐,正面的思想,那么好的人事物就会和他共鸣,而且被他吸引过来。同样,一个人老带悲伤,倒霉的事情也会跟过来。
​ ——在自己心情低落的时候,告诫自己不要把负能量带给别人。(大校10)
```

Linux(2)---记录一次线上服务 CPU 100%的排查过程的更多相关文章

  1. 记一次线上服务CPU 100%的处理过程

    告警 正在开会,突然钉钉告警声响个不停,同时市场人员反馈客户在投诉系统登不进了,报504错误.查看钉钉上的告警信息,几台业务服务器节点全部报CPU超过告警阈值,达100%. 赶紧从会上下来,SSH登录 ...

  2. 线上服务 CPU 100%?一键定位 so easy!

      转自:  https://my.oschina.net/leejun2005/blog/1524687   摘要: 本文主要针对 Java 服务而言 0.背景 经常做后端服务开发的同学,或多或少都 ...

  3. 原创 记录一次线上Mysql慢查询问题排查过程

    背景 前段时间收到运维反馈,线上Mysql数据库凌晨时候出现慢查询的报警,并把原始sql发了过来: --去除了业务含义的sql update test_user set a=1 where id=1; ...

  4. 线上服务的FGC问题排查,看这篇就够了!

    线上服务的GC问题,是Java程序非常典型的一类问题,非常考验工程师排查问题的能力.同时,几乎是面试必考题,但是能真正答好此题的人并不多,要么原理没吃透,要么缺乏实战经验. 过去半年时间里,我们的广告 ...

  5. 线上服务的FGC问题排查

    转载:https://blog.csdn.net/g6U8W7p06dCO99fQ3/article/details/106088467 线上服务的GC问题,是Java程序非常典型的一类问题,非常考验 ...

  6. JVM 常见线上问题 → CPU 100%、内存泄露 问题排查

    开心一刻 明明是个小 bug,但就是死活修不好,我特么心态崩了...... 前言 后文会从 Windows.Linux 两个系统来做示例展示,有人会有疑问了:为什么要说 Windows 版的 ? 目前 ...

  7. 一则线上MySql连接异常的排查过程

    Mysql作为一个常用数据库,在互联网系统应用很多.有些故障是其自身的bug,有些则不是,这里以前段时间遇到的问题举例. 问题 当时遇到的症状是这样的,我们的应用在线上测试环境,JMeter测试过程中 ...

  8. 线上服务CPU100%问题快速定位实战

    功能问题,通过日志,单步调试相对比较好定位. 性能问题,例如线上服务器CPU100%,如何找到相关服务,如何定位问题代码,更考验技术人的功底. 58到家架构部,运维部,58速运技术部联合进行了一次线上 ...

  9. 线上服务内存OOM问题定位[转自58沈剑]

    相信大家都有感触,线上服务内存OOM的问题,是最难定位的问题,不过归根结底,最常见的原因: 本身资源不够 申请的太多 资源耗尽 58到家架构部,运维部,58速运技术部联合进行了一次线上服务内存OOM问 ...

随机推荐

  1. linux在线安装mysql

     1)下载rpm安装包 wget http://dev.mysql.com/get/mysql57-community-release-el7-8.noarch.rpm;2) 安装mysql源 yum ...

  2. CentOS 7.0开放指定端口

    >>> CentOS 7.0默认使用的是firewall作为防火墙,使用iptables必须重新设置一下 1.直接关闭防火墙 systemctl stop firewalld.ser ...

  3. 如何明确区分代码中的1和l

    如poly1d 单独将其复制到记事本,然后按ctrl+F,输入要查找的对象,数字1或者小写字母l,找到的对象会已高亮表示,所以就可以确定了高亮表示的是数字1还是字母l.

  4. Linux:从入门到放弃

    [未解决] # 周五,安装ubuntu 18.04 # 周六,相继安装minit / deepin 系统. # 至今,遇到过还没有解决的问题有: # . 开机ACPI Error: # . 无论哪个L ...

  5. python代码规范与标准库参考

    python代码规范与标准库参考 python代码规范参考文献: http://www.runoob.com/w3cnote/google-python-styleguide.html https:/ ...

  6. vue获取当前对象

    <li v-for="img in willLoadImg" @click="selectImg($event)"> <img class=& ...

  7. toString

    在java中使用toString: 如果在Java在输出定义一个Person类 然后实例化person  per 直接用system.out.println(per);无法得到我们想要的实例化内容 p ...

  8. CTSC2017总结

    这个博客已经弃坑近一年了,自从去年国赛大力卡线进队后这近一年来我的情况从博客一年没更就可见一斑,OI水平原(zhi)地(xian)踏(fu)步(chong),炉石和双升的姿势水平倒是提高不少. 在经历 ...

  9. 删除PeopleSoft Process Scheduler服务器定义

    DELETE FROM PS_SERVERDEFN WHERE SERVERNAME= 'PSNT2' ; DELETE FROM PSSERVERSTAT where SERVERNAME = 'P ...

  10. 我理解的websocket

    短轮询:客户端发起请求,服务器无论有无消息都返回信息,结束http连接.然后继续发起请求. 长轮询:客户端发起请求,建立连接,直到服务端返回消息response,结束http连接.然后继续发起请求,重 ...