博文转至:http://www.jianshu.com/p/3667157d63bb,博文更好效果看原版,转本博文的目的就算是个书签吧,需要时候可以定位原文学习

1、故障现象

客服同事反馈平台系统运行缓慢,网页卡顿严重,多次重启系统后问题依然存在,使用top命令查看服务器情况,发现CPU占用率过高。

2、CPU占用过高问题定位

2.1、定位问题进程

使用top命令查看资源占用情况,发现pid为14063的进程占用了大量的CPU资源,CPU占用率高达776.1%,内存占用率也达到了29.8%

  1. [ylp@ylp-web-01 ~]$ top
  2. top - 14:51:10 up 233 days, 11:40, 7 users, load average: 6.85, 5.62, 3.97
  3. Tasks: 192 total, 2 running, 190 sleeping, 0 stopped, 0 zombie
  4. %Cpu(s): 97.3 us, 0.3 sy, 0.0 ni, 2.5 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st
  5. KiB Mem : 16268652 total, 5114392 free, 6907028 used, 4247232 buff/cache
  6. KiB Swap: 4063228 total, 3989708 free, 73520 used. 8751512 avail Mem
  7. PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND
  8. 14063 ylp 20 0 9260488 4.627g 11976 S 776.1 29.8 117:41.66 java
2.2、定位问题线程

使用ps -mp pid -o THREAD,tid,time命令查看该进程的线程情况,发现该进程的多个线程占用率很高

  1. [ylp@ylp-web-01 ~]$ ps -mp 14063 -o THREAD,tid,time
  2. USER %CPU PRI SCNT WCHAN USER SYSTEM TID TIME
  3. ylp 361 - - - - - - 02:05:58
  4. ylp 0.0 19 - futex_ - - 14063 00:00:00
  5. ylp 0.0 19 - poll_s - - 14064 00:00:00
  6. ylp 44.5 19 - - - - 14065 00:15:30
  7. ylp 44.5 19 - - - - 14066 00:15:30
  8. ylp 44.4 19 - - - - 14067 00:15:29
  9. ylp 44.5 19 - - - - 14068 00:15:30
  10. ylp 44.5 19 - - - - 14069 00:15:30
  11. ylp 44.5 19 - - - - 14070 00:15:30
  12. ylp 44.5 19 - - - - 14071 00:15:30
  13. ylp 44.6 19 - - - - 14072 00:15:32
  14. ylp 2.2 19 - futex_ - - 14073 00:00:46
  15. ylp 0.0 19 - futex_ - - 14074 00:00:00
  16. ylp 0.0 19 - futex_ - - 14075 00:00:00
  17. ylp 0.0 19 - futex_ - - 14076 00:00:00
  18. ylp 0.7 19 - futex_ - - 14077 00:00:15

从输出信息可以看出,14065~14072之间的线程CPU占用率都很高

2.3、查看问题线程堆栈

挑选TID为14065的线程,查看该线程的堆栈情况,先将线程id转为16进制,使用printf "%x\n" tid命令进行转换

  1. [ylp@ylp-web-01 ~]$ printf "%x\n" 14065
  2. 36f1

再使用jstack命令打印线程堆栈信息,命令格式:jstack pid |grep tid -A 30

  1. [ylp@ylp-web-01 ~]$ jstack 14063 |grep 36f1 -A 30
  2. "GC task thread#0 (ParallelGC)" prio=10 tid=0x00007fa35001e800 nid=0x36f1 runnable
  3. "GC task thread#1 (ParallelGC)" prio=10 tid=0x00007fa350020800 nid=0x36f2 runnable
  4. "GC task thread#2 (ParallelGC)" prio=10 tid=0x00007fa350022800 nid=0x36f3 runnable
  5. "GC task thread#3 (ParallelGC)" prio=10 tid=0x00007fa350024000 nid=0x36f4 runnable
  6. "GC task thread#4 (ParallelGC)" prio=10 tid=0x00007fa350026000 nid=0x36f5 runnable
  7. "GC task thread#5 (ParallelGC)" prio=10 tid=0x00007fa350028000 nid=0x36f6 runnable
  8. "GC task thread#6 (ParallelGC)" prio=10 tid=0x00007fa350029800 nid=0x36f7 runnable
  9. "GC task thread#7 (ParallelGC)" prio=10 tid=0x00007fa35002b800 nid=0x36f8 runnable
  10. "VM Periodic Task Thread" prio=10 tid=0x00007fa3500a8800 nid=0x3700 waiting on condition
  11. JNI global references: 392

从输出信息可以看出,此线程是JVM的gc线程。此时可以基本确定是内存不足或内存泄露导致gc线程持续运行,导致CPU占用过高。
所以接下来我们要找的内存方面的问题

3、内存问题定位

3.1、使用jstat -gcutil命令查看进程的内存情况
  1. [ylp@ylp-web-01 ~]$ jstat -gcutil 14063 2000 10
  2. S0 S1 E O P YGC YGCT FGC FGCT GCT
  3. 0.00 0.00 100.00 99.99 26.31 42 21.917 218 1484.830 1506.747
  4. 0.00 0.00 100.00 99.99 26.31 42 21.917 218 1484.830 1506.747
  5. 0.00 0.00 100.00 99.99 26.31 42 21.917 219 1496.567 1518.484
  6. 0.00 0.00 100.00 99.99 26.31 42 21.917 219 1496.567 1518.484
  7. 0.00 0.00 100.00 99.99 26.31 42 21.917 219 1496.567 1518.484
  8. 0.00 0.00 100.00 99.99 26.31 42 21.917 219 1496.567 1518.484
  9. 0.00 0.00 100.00 99.99 26.31 42 21.917 219 1496.567 1518.484
  10. 0.00 0.00 100.00 99.99 26.31 42 21.917 220 1505.439 1527.355
  11. 0.00 0.00 100.00 99.99 26.31 42 21.917 220 1505.439 1527.355
  12. 0.00 0.00 100.00 99.99 26.31 42 21.917 220 1505.439 1527.355

从输出信息可以看出,Eden区内存占用100%,Old区内存占用99.99%,Full GC的次数高达220次,并且频繁Full GC,Full GC的持续时间也特别长,平均每次Full GC耗时6.8秒(1505.439/220)。根据这些信息,基本可以确定是程序代码上出现了问题,可能存在不合理创建对象的地方

3.2、分析堆栈

使用jstack命令查看进程的堆栈情况

  1. [ylp@ylp-web-01 ~]$ jstack 14063 >>jstack.out

把jstack.out文件从服务器拿到本地后,用编辑器查找带有项目目录并且线程状态是RUNABLE的相关信息,从图中可以看出ActivityUtil.java类的447行正在使用HashMap.put()方法

Paste_Image.png
3.3、代码定位

打开项目工程,找到ActivityUtil类的477行,代码如下:

Paste_Image.png

找到相关同事了解后,这段代码会从数据库中获取配置,并根据数据库中remain的值进行循环,在循环中会一直对HashMap进行put操作。

查询数据库中的配置,发现remain的数量巨大

Paste_Image.png

至此,问题定位完毕。

 

线上Java程序导致服务器CPU占用率过高的问题排除过程的更多相关文章

  1. 记一次线上Java程序导致服务器CPU占用率过高的问题排除过程

    博文转至:http://www.jianshu.com/p/3667157d63bb,转本博文的目的就是需要的时候以防忘记 1.故障现象 客服同事反馈平台系统运行缓慢,网页卡顿严重,多次重启系统后问题 ...

  2. Java内存、CPU占用率过高

    windows下揪出java程序占用cpu很高的线程 并找到问题代码 死循环线程代码 linux下查找java进程占用CPU过高原因 Java 占用CPU使用率很高的分析 记一次线上Java程序导致服 ...

  3. 使用jstack分析java程序cpu占用率过高

    在项目中经常会碰到CPU占用率过高的问题,那么碰到这类问题应当如何处理呢?下面提供一种处理思路: 首先top -H -p <pid>以线程的模式查看java应用的运行情况,找到占用cpu或 ...

  4. 云服务器 ECS Linux 系统 CPU 占用率较高问题排查思路

    https://help.aliyun.com/knowledge_detail/41225.html?spm=5176.7841174.2.2.ifP9Sc 注意:本文相关配置及说明已在 CentO ...

  5. zprofiler三板斧解决cpu占用率过高问题(转载)

    zprofiler三板斧解决cpu占用率过高问题 九居 JVM性能与调试平台   zprofiler   上周五碰到了一个线上机器cpu占用率过高的问题.问题本身比较简单,但是定位过程中动用了多个zp ...

  6. zprofiler三板斧解决cpu占用率过高问题

    zprofiler三板斧解决cpu占用率过高问题  九居 浏览 171 2015-04-08 14:11:58 发表于:JVM性能与调试平台   zprofiler   上周五碰到了一个线上机器cpu ...

  7. Windows CPU占用率过高

    今天调试程序,发现Windows7的CPU占用率一直为25%左右,如下图所示.四核25%,换成单核那就是100%的占用率了! 上图进入"进程"页面,单击"CPU" ...

  8. 一次线上redis实例cpu占用率过高问题优化(转)

    前情提要: 最近接了大数据项目的postgresql运维,刚接过来他们的报表系统就出现高峰期访问不了的问题,报表涉及实时数据和离线数据,离线读pg,实时读redis.然后自然而然就把redis也挪到我 ...

  9. 一次服务器CPU占用率高的定位分析

    现象: 当前项目启动一段时间,有一个服务导致CPU使用率持续超过30% 环境:Windows 7,  CPU: 8核, 内存: 8g内存 定位过程: 启动项目,查看Java进程ID 查看Event P ...

随机推荐

  1. ServletContext对象统计在线人数

    package com.zdsofe.servlet1; import java.io.IOException; import java.io.PrintWriter; import javax.se ...

  2. 使用HTML5 FormData对象实现大文件分块上传(断点上传)功能

    FormData是HTML5新增的一个对象,通过FormData对象可以组装一组用 XMLHttpRequest发送请求的键/值对.它可以更灵活方便的发送表单数据,因为可以独立于表单使用.如果你把表单 ...

  3. textarea的换行符处理以及正确的在Html中显示

    个人不太喜欢在页面做过多的逻辑处理,贴出java的处理方式 /** * Html转换为TextArea文本 * @return */ public static String HtmlToText(S ...

  4. Linux Oracle服务启动&停止脚本与开机自启动[转]

    在CentOS 6.3下安装完Oracle 10g R2,重开机之后,你会发现Oracle没有自行启动,这是正常的,因为在Linux下安装Oracle的确不会自行启动,必须要自行设定相关参数,首先先介 ...

  5. 剑指OFFER——调整数组顺序使奇数位于偶数前面

    输入一个整数数组,实现一个函数来调整该数组中数字的顺序,使得所有的奇数位于数组的前半部分,所有的偶数位于位于数组的后半部分,并保证奇数和奇数,偶数和偶数之间的相对位置不变. 剑指offer书里的版本, ...

  6. flex居中

    1.先把父元素display:flex 2.在父元素设置justify-content:center;水平居中 3.在父元素设置align-items:center;垂直居中 align-items ...

  7. HDU 6170----Two strings(DP)

    题目链接 Problem Description Giving two strings and you should judge if they are matched.The first strin ...

  8. Deadclock on calling async methond

    Issue: HttpClient.GetAsync(…) never returns when using await/async Related Posts: http://stackoverfl ...

  9. 1>MSBUILD : cordova-build error BLD401: 错误: BLD00401: 找不到模块“C:\Users\z-pc\AppData\Roaming\npm\node_modules\vs-tac\app.js”。请转到“工具”-->“选项”-->“Apache Cordova 工具”-->“Cordova 工具”-->“清除 Cordova 缓存”,然后尝试重新生成

    1>------ 已启动全部重新生成: 项目: BlankCordovaApp2, 配置: Debug Android ------1>  Your environment has bee ...

  10. 前端开发中一些好用的chrome插件总结

    下载了很多chrome插件和应用,有些是常用的,有些偶尔用一次,有些是不止开发中用的,现做一下总结: 红色是个人认为比较好用的,排名不分先后 1.AppJump管理应用的插件  安装了许多应用之后肯定 ...