“喜提”一个P2级故障—CMSGC太频繁,你知道这是什么鬼?
大家好,我是陶朱公Boy。
背景
不知道大家看到这条告警内容后,是什么感触?我当时是一脸懵逼的,一万个为什么萦绕心头。
什么是CmsGc?CmsGc太频繁又是什么意思?什么情况下会触发CMSGC太频繁这种告警?要怎么样去找到那个被频繁创建的对象?最后又需要怎么规避?
接下来这篇文章我会来回答一下:什么是CMSGC太频繁;整个排查过程与你分享;最后我们一起探讨一下一些规避手段。
什么是CMSGC太频繁
首先我觉得还是有必要解释清楚什么是CMSGC太频繁这个术语,相信不少小伙伴也是比较关心的。
如果你听过垃圾搜集器中有一款名为CMS垃圾搜集器,那就好理解了,所谓的CMSGC太频繁意思是说CMS垃圾搜集器在当下时间窗口垃圾收集的动作频次太快(平时老半天才回收一次或几次垃圾对象,现在可能一分钟就需要回收多次),大致就是这个意思。
所以说CMS垃圾收集器是一款作用于老年代区域的垃圾收集器。
关于CMS+ParNew垃圾搜集器的配置说明:大家如果在VM启动配置参数中做如下配置:-XX:+UseConcMarkSweepGC.该配置项首先是激活CMS收集器(作用于老年代)。之后-XX:UseParNewGC会自动开启,意味着年轻代将使用多线程并行垃圾收集器parNew进行回收。
原因分析
新生代因为垃圾回收之后,因为存活对象太多,导致Survivor空间放不下,部分对象会进入老年代 大对象直接进入老年代
这里的大对象是指那些需要大量连续空间的JAVA对象,比如那种很长的字符串或数组对象。
长期存活的对象将进入老年代
对象在Eden出生,并经过第一次YGC后任然存活,并且能被Survivor空间容纳,将被移动到Survivor空间中,并且对象年龄设为1。对象在Survivor空间每熬过一次YGC,年龄就增加一岁,如果达到15(默认)岁,对象就会进入老年代。
动态对象年龄判断
这点是对长期存活的对象进入老年代的补充。 其实不一定要必须满足所谓的存活对象年龄达到15岁才能进入老年代。如果一次YGC后,尽管Survivor区域有空间能容纳存活对象,但这批存活对象恰好存活的年龄相同,且加起来的大小总和大于Survivor空间的一半,这些对象照样会进入老年代。
老年代可用的连续空间小于年轻代历次YGC后升入老年代的对象总和的平均大小,说明YGC后升入老年代的对象大小很可能超过了老年底当期可用的内存空间;触发cmsgc后再进行ygc
ygc之后有一批对象需要放入老年代,但老年代没有足够的空间存放了,需要触发一次cmsgc
老年代的内存使用率超过92%,也要触发OLD 过程(通过参数控制-xx:+CMSInitiatingOccupancyFraction)
排查过程
配置VM参数 -XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=${LOGDIR}/ 虚拟机在OOM异常之后会自动生成一份dump文件在本地 。 执行jmap(Java内存映像工具)命令 jdk提供的命令行工具jmap能生成堆存储快照,jmap -dump:format=b,file=heapdump.hprof {进程ID}
阿里开源性能诊断工具:Arthas
接下来作者用本次告警dump下来的堆文件,用MAT工具给大家演示一下具体查找问题对象的全过程。
MAT是Memory Analyzer tool的缩写,是一种快速,功能丰富的Java堆分析工具,能帮助你查找内存泄漏和减少内存消耗。 很多情况下,我们需要处理测试提供的hprof文件,分析内存相关问题,那么MAT也绝对是不二之选。Eclipse可以下载插件结合使用,也可以作为一个独立分析工具使用。 下载地址:eclipse.org/mat/downloa。如果安装过程中可能会碰到版本过低的问题,需要安装一下高版本JDK 比如11,最后设置一下安装路径即可。
打开堆文件
如果你已经成功安装完MAT。进入首页后就可以打开本地hprof文件了。
打开文件后,进入分析页
Actions:
Histogram 列出每个类所对应的对象个数,以及所占用的内存大小;Dominator Tree 以占用总内存的百分比的方式来列举出所有的实例对象,注意这个地方是直接列举出的对应的对象而不是类,这个视图是用来发现大内存对象的Top Consumers:按照类和包分组的方式展示出占用内存最大的一个对象Duplicate Classes:检测由多个类加载器所加载的类信息(用来查找重复的类)
Reports:
Leak Suspects:通过MAT自动分析当前内存泄露的主要原因
Top Components:Top组件,列出大于总堆1%的组件的报告Step By Step:
Component Report:组件报告,分析属于公共根包或类加载器的对象
关注上述两个选项基本就能找到问题对象了。
解决方案
如果你的程序代码书写正常,纯粹是真的应用流量太大,你部署的机器没办法抗住这波流量,这种情况发生CMSGC太频繁概率就很大了,甚至最终会导致OOM异常。对这种情况也只能横向扩充机器了,以均衡流量。 如果你的机器足够,线上流量也正常,但也发生了cmsgc太频繁,甚至OOM异常。那大概率是你的程序代码有问题,导致老年代区域聚集了大量垃圾对象,垃圾回收线程频繁回收那些无用的垃圾对象,最终可能还达不到回收的理想效果,那么这个时候你不得不分析堆里面被大量占据的对象,看看是不是程序代码问题导致老年代被堆满。 像作者文章开始出的这个案例,作者经过上述步骤分析后,发现是程序代码问题导致有大量对象进入老年代。(作者在应用中引入了一个java8的Nashorn组件,该组件的构建过程极其复杂,内部会创建很多个对象实例,因为作者的业务流量还是比较大的,每秒2000+QPS),机器也是够的大概10台(每台4C8G),分析发现内存中大量充斥着Nashorn相关代码,经过深入分析,其实这个Nashorn实例全局单例就可以了,不需要每次方法执行都构建一个实例,因为构建过程复杂且多对象,流量一高势必最终导致应用发生内存溢出等异常。
总结
最后我也总结了应该如何避免发生GC太频繁甚至OOM这类异常。如果程序代码一切正常,纯粹是瞬时流量太高才导致的GC动作加快,可以考虑临时增加服务器实例,分摊流量。不过很多问题可能都是程序员代码书写不正确才导致的,这个时候你应该首先找出问题对象,然后找出频繁创建对象的代码块。
本文完!
写到最后
关注我
如果这篇文章你看了对你有帮助或启发,麻烦点赞、关注一下作者。你的肯定是作者创作源源不断的动力。
公众号
里面不仅汇集了硬核的干货技术、还汇集了像左耳朵耗子、张朝阳总结的高效学习方法论、职场升迁窍门、软技能。希望能辅助你达到你想梦想之地!
公众号内回复关键字“电子书”下载pdf格式的电子书籍(JAVAEE、Spring、JVM、并发编程、Mysql、Linux、kafka、分布式等)、“开发手册”获取阿里开发手册2本、"面试"获取面试PDF资料。
“喜提”一个P2级故障—CMSGC太频繁,你知道这是什么鬼?的更多相关文章
- 恭喜磊哥喜提n+1
昨天下午两点多磊哥突然喊我下楼,第一反应是"这孙子,抽烟就直说,还说个事,你以外你是吉祥村大姐啊". 心里骂完以后我慢慢悠悠下楼了,见他在打电话我先默默点上一支,准备待他结束以后对 ...
- 使用 Sealos 在 3 分钟内快速部署一个生产级别的 Kubernetes 高可用集群
本文首发于:微信公众号「运维之美」,公众号 ID:Hi-Linux. 「运维之美」是一个有情怀.有态度,专注于 Linux 运维相关技术文章分享的公众号.公众号致力于为广大运维工作者分享各类技术文章和 ...
- 如何设计一个亿级网关(API Gateway)?
1.背景 1.1 什么是API网关 API网关可以看做系统与外界联通的入口,我们可以在网关进行处理一些非业务逻辑的逻辑,比如权限验证,监控,缓存,请求路由等等. 1.2 为什么需要API网关 RPC协 ...
- python递归练习:生成一个n级深度的字典,例如:[1,2,3,4,5,6] 可以生成{1: {2: {3: {4: {6: 5}}}}},写一个函数定义n级
结果#encoding = utf-8#题目:#生成一个n级深度的字典,例如:[1,2,3,4,5,6] 可以生成{1: {2: {3: {4: {6: 5}}}}},写一个函数定义n级a=[1,2, ...
- ireport报表制作, 当一个字段显示的数据太多时(数据过长),则需要自动换行
1.当一个字段显示的数据太长,一个表格放不下,则需要自动换行,选中要更改的表格(要显示动态内容的字段),设置属性Stretch with overflow 为钩选状态. 未勾选之前: 勾选之后: 2. ...
- 有个人想上一个n级的台阶,每次只能迈1级或者迈2级台阶,问:这个人有多少种方法可以把台阶走完?
有个人想上一个n级的台阶,每次只能迈1级或者迈2级台阶,问:这个人有多少种方法可以把台阶走完? 相关问题: (1)有个人想上一个n级的台阶,每次只能迈1级或者迈2级台阶,问:这个人有多少种方法可以把台 ...
- python爬虫拉钩网:{'msg': '您操作太频繁,请稍后再访问', 'clientIp': '113.57.176.181', 'success': False}
反爬第一课: 在打印html.text的时候总会提示 {'success': False, 'msg': '您操作太频繁,请稍后再访问', 'clientIp': '113.14.1.254'} 需要 ...
- 谁说双非本科就一定无缘阿里?H哥粉丝6面通过,喜提Offer!
本文来自作者投稿(原作者:小胖儿),原作者是一位2021届本科毕业生,就读于一所双非(非985.非211)院校,在今年2月份的时候,我曾经帮他指导过简历,并且根据他的简历内容帮他提了一些可能会问到的问 ...
- 部署一个生产级别的 Kubernetes 应用(以Wordpress为例)
文章转载自:https://mp.weixin.qq.com/s?__biz=MzU4MjQ0MTU4Ng==&mid=2247487811&idx=1&sn=67b39b73 ...
- 题目描述: k一只青蛙一次可以跳上1级台阶,也可以跳上2级。求该青蛙跳上一个n级的台阶总共有多少种跳法。
时间限制:1秒 空间限制:32768k 斐波那契数列指的是这样一个数列: 0, 1, 1, 2, 3, 5, 8, 13, 21, 34, 55, 89, 144, 233,377,610,9 ...
随机推荐
- .NET 7 RC 2 发布,倒计时一个月发布正式版
微软2022-10-22 发布了 .NET 7 RC 2,下一站是.NET 7正式发布,就在下个月Net Conf 2022(11月8日)期间正式发布. 经过长达一年时间的开发,.NET 7 规划的所 ...
- 线性表的基本操作(C语言实现)
文章目录 这里使用的工具是DEV C++ 可以借鉴一下 实现效果 顺序存储代码实现 链式存储存储实现 这里使用的工具是DEV C++ 可以借鉴一下 一.实训名称 线性表的基本操作 二.实训目的 1.掌 ...
- 常用排序算法(C语言)
1.冒泡排序 void BubbleSort(int a[],int len) {int tmp; for (int i=0; i<n-1; i++) { int flag = FALSE; f ...
- Linxu常用命令
一.Linux权限的概念 Linux下有两种用户:普通用户和超级用户: 普通用户:在linux下做有限的事情: 超级用户:可以在linux系统下做任何事情,不受限制. 普通用户的提示符是"$ ...
- Charles基本功能
Windows: 运行安装应用程序以在程序菜单中安装 Charles. Mac OS X: 通过双击解压缩下载文件,然后将 Charles 应用程序复制到 Applications 目录中. Linu ...
- iOS开发应用上传AppStore的步骤
原文:http://blog.csdn.net/ayangcool/article/details/46647693 前言:作为一名IOS开发者,把开发出来的App上传到App Store是必须的 ...
- Codeforces 1670 E. Hemose on the Tree
题意 给你个数p,n = 2^p: 有一棵树有n个节点,告诉你怎么连边: 每个点有个权值,每条边也有个权值,权值需要自行分配,[1,2,3..n...2n-1],总共2n-1个权值: 你需要选一个节点 ...
- C# 语法分析器(二)LR(0) 语法分析
系列导航 (一)语法分析介绍 (二)LR(0) 语法分析 (三)LALR 语法分析 (四)二义性文法 (五)错误恢复 (六)构造语法分析器 首先,需要介绍下 LALR 语法分析的基础:LR(0) 语法 ...
- 论文笔记 - Fantastically Ordered Prompts and Where to Find Them: Overcoming Few-Shot Prompt Order Sensitivity
prompt 的影响因素 Motivation Prompt 中 Example 的排列顺序对模型性能有较大影响(即使已经校准参见好的情况下,选取不同的排列顺序依然会有很大的方差): 校准可以大幅度提 ...
- Oracle部署,关于日志文件系统选择(硬盘格式化、挂载)
之前部署过好多Oracle服务,采用的日志文件系统一直是ext3.但是我观察到很多人在格式化/挂载数据盘时,采用的日志文件系统类型有ext3.ext4.xfs等,这不禁让我发出疑问,哪个类型的数据处理 ...