线上故障主要会包括cpu.磁盘.内存以及网络问题,而大多数故障可能会包含不止一个层面的问题,所以进行排查时候尽量四个方面依次排查一遍. 同时例如jstack.jmap等工具也是不囿于一个方面的问题的,基本上出问题就是df.free.top 三连,然后依次jstack.jmap伺候,具体问题具体分析即可. CPU 一般来讲我们首先会排查cpu方面的问题.cpu异常往往还是比较好定位的.原因包括业务逻辑问题(死循环).频繁gc以及上下文切换过多.而最常见的往往是业务逻辑(或者框架逻辑)导致的,可以使…
1. IO处理过程 磁盘IO经常会成为系统的一个瓶颈,特别是对于运行数据库的系统而言.数据从磁盘读取到内存,在到CPU缓存和寄存器,然后进行处理,最后写回磁盘,中间要经过很多的过程,下图是一个以write为例的 Linux 磁盘IO子系统的架构: 可以看到IO操作分成了四个层面: 1)文件系统缓存:处理数据必须先从磁盘读到缓存,然后修改,然后刷会磁盘.缓存的刷新涉及到两个参数:vm.dirty_background_ratio.vm.dirty_ratio.还有刷新写回时,使用到 bio 结构,…