一.背景 某一日收到上游调用方的反馈,提供的某一个Dubbo接口,每天在固定的时间点被短时间熔断,抛出的异常信息为提供方dubbo线程池被耗尽.当前dubbo接口日请求量18亿次,报错请求94W/天,至此开始了优化之旅. 二.快速应急 2.1 快速定位 首先进行常规的系统信息监控(机器.JVM内存.GC.线程),发现虽稍有突刺,但都在合理范围内,且跟报错时间点对不上,先暂时忽略. 其次进行流量分析,发现每天固定时间点会有流量突增的情况,流量突增的点跟报错的时间点也吻合,初步判断为短时大流量导致.…