概述 项目组每天14点都会遭遇惊魂时刻.一条条告警短信把工程师从午后小憩中拉回现实.之后问题又神秘消失.是PM喊你上工了?还是服务器给你开玩笑?下面请看工程师如何一步一步揪出真凶,解决问题. 如果不想看故事,可以直接跳到最后事后烟章节下看和Redis相关部分. 起因 某天下午,后端组的监控系统发出告警,服务器响应时间变长,超过了阈值.过一会儿系统自动恢复了,告警解除. 第二天差不多的时间点,监控系统又发出了同样的告警,过几分钟后又恢复了. 我们决定排查这个问题. 背景 首先要介绍一下应用的架构,