前言 前一段时间,公司同事的一个线上服务OOM的问题,我觉得挺有意思的,在这里跟大家一起分享一下. 我当时其实也参与了一部分问题的定位. 1 案发现场 他们有个mq消费者服务,在某一天下午,出现OOM了,导致服务直接挂掉. 当时我们收到了很多内存的报警邮件. 发现问题之后,运维第一时间,帮他们dump了当时的内存快照,以便于开发人员好定位问题. 之后,运维重启了该服务,系统暂时恢复了正常. 大家都知道,如果出现了线上OOM问题,为了不影响用户的正常使用,最快的解决办法就是重启服务. 但重启服务治…