确定挂机 络绎不绝的来不同类型的bug 当bug滚滚而来时,不要怀疑,你的发布的应用基本是不可用状态了.观察哨兵监控数据,特别是内存打到80%基本就挂机了,或者监控数据缺失也基本是挂机了.此时应当马上决断: 通知运营暂停操作(大多数是因为后台应用导致的,纯经验猜测,因为你也不可能让外部用户停止操作) 重启大多数机器,保留一台机器保存现场(下线机器). 实例: 友品app首页有频率的失败 运营提bug,后台导出每次都不可用,其他的偶现不可用 找到原因 把此问题复现出来 根据各方面的反馈,加自身的迭…