关于故障的事后复盘,英文名 Case Study是非常有必要做的,当然是根据故障的级别,不可能做到每个故障都Case Study,除非人员和时间充足: 文档能力也是能力的一种,一般工程师的文档能力比较薄弱或者一般 ,但是一般各种类型的文档其实都有模板,根据模板填充内容也能事半功倍. 故障要有记录, 每个公司应当都有wiki,这些复盘应当记录下来,能学习到很多.Case Study会占用大量的时间, 但是中级以及重大故障还是有必要的. 下面介绍的就是复盘的整体套路: 故障描述 xxx业务状态码报警…