在搭建搭建分布式系统时,基础组件与框架的重要性不言而喻.但是如果组件出现bug,真的很要命.虽然我们通过各种单元测试,拼命找bug,但是总有一些问题被盲目自信蒙蔽了双眼,很多时候我们认为这段代码100%没有问题,但是我想说,没有100%没有问题的代码,只有你没想到的应用场景.下面就说一下最近技术组件出现的一次离奇的故障. 开始之前,先看看这个服务的压力,大约每分钟3700左右的样子,折合成TPS也就不到100的样子. 问题现象是,当服务程序重启后,系统一直没有结束的任务,并且线程持续增长,直到线…