时间线 大约在2020年10月,内网测试服服务端更新,发现进程A重启后,与其他进程之间的心跳协议不通,不能正常的提供服务.重启后,就正常了. 这个情况持续了很长时间.只在重启时才会出现,且发生概率很低,一个月一次的概率.所以这个问题就被搁置了. 现网部署后,发现更新时,也出现了这个情况,但是由于重启就可以解决,这个问题被归属为:重要但不紧急的范畴. 大约2021年5月,花了一些时间尝试解决这个问题.由于没有找到重现的步骤,所以等待出现问题时观察现场.后面有一次出现了,进行排查: 看日志,没有异常