背景 10月2号凌晨12:08收到报警,所有请求失败,处于完全不可用状态 应用服务器共四台resin,resin之前由四台nginx做负载均衡 服务器现象及故障恢复步骤 登入服务器,观察resin进程,初看无任何异常,且占用资源正常,有非业务逻辑相关(一些schedule task)的日志输出,但无业务逻辑相关的日志. 表明resin服务器没有在处理(新的)用户的请求 重启resin,并观察日志,发现resin开始处理业务,基本恢复 表明重启可以解决问题 继续依次重启剩余的三台resin,并在重…