由于程序设计不合理或者瞬间高并发访问时,很有可能会触发OOM(Out of memory),这里指的是操作系统级别的OOM.具体什么是OOM,以及怎样发生这里不在赘述,因为笔者认为这是IT从业工作者的基本常识了.本篇主要记录一下生产环境时对发生OOM的程序进行监控,便于我们及时发现以及事后问题的复盘. 在做这个监控时,笔者也做了很多考察搜索,幻想着会有那么一两个成熟的开源软件能实现这个监控,事与愿违,笔者并未找到这样的工具,无奈之下,只好自己动手实现了一个略显粗糙的程序来达到我的目的. 实现思路