背景 起因于最近的一项工作:我们会定义一些关键指标来衡量当前系统的健康状态,然后配置对应的报警规则来进行监控报警.但是当前的报警规则会产生大量的误报,需要进行优化.我所负责的是将一些和用户行为指标相关的报警规则拆封从日间和夜间两套规则(因为在夜间用户的使用量减少,报警的阈值是可以调高的). 这实际上就是一个体力活儿,把原来的报警规则再复制一份,然后改一下阈值.但我算了一个,原来大概有100多个报警规则,这还是一个不小的力气活儿啊!万幸的是,我们的报警平台是支持通过 json 文件的方式导入规则的