排查完全陌生的问题,完全不熟悉的系统组件,是售后工程师的一大工作乐趣,当然也是挑战.今天借这篇文章,跟大家分析一例这样的问题.排查过程中,需要理解一些自己完全陌生的组件,比如systemd和dbus.但是排查问题的思路和方法基本上还是可以复用了,希望对大家有所帮助. 问题一直在发生 I'm NotReady 阿里云有自己的Kubernetes容器集群产品.随着Kubernetes集群出货量的剧增,线上用户零星的发现,集群会非常低概率地出现节点NotReady情况.据我们观察,这个问题差不多每个月…