转:https://mp.weixin.qq.com/s/-lSiVDfqYrKk_w-xitYBhA 背景:新功能开发测试完成后,准备发布上线,当发布完第三台机器时,监控显示其中一台机器CPU突然飙升到300%,Dubbo活动线程数直接飙到1000+,不得不停止发布,立马回滚出问题的机器,回滚之后恢复正常:继续观察另外两台已经发布的机器,最终,无一幸免,只能全部回滚了. 下面是我的故障排查过程: 监控日志分析 首先查看故障时间点的应用日志,发现大量方法耗时较久,其中filterMission方