runc hang 导致 Kubernetes 节点 NotReady

【runc hang 导致 Kubernetes 节点 NotReady】的更多相关文章

runc hang 导致 Kubernetes 节点 NotReady

Kubernetes 1.19.3 OS: CentOS 7.9.2009 Kernel: 5.4.94-1.el7.elrepo.x86_64 Docker: 20.10.6 先说结论,runc v1.0.0-rc93 有 bug,会导致 docker hang 住. 发现问题线上告警提示集群中存在 2-3 个 K8s 节点处于 NotReady 的状态,并且 NotReady 状态一直持续. kubectl describe node,有 NotReady 相关事件. 登录问题机器后,查看…

kubernetes排错系列：（一）、机房搬迁导致的节点NotReady

说下背景: 上周六机房进行搬迁,我所在的网段的机器都重启了一遍.重启之后kubernetes集群不正常.如下排查过程: # 查看节点信息 kubectl describe nodes cbov10-sso55- 时间正好是上周五搬迁的时间点,20190809,kubelet停止发布节点状态 # 查看kubelet状态 systemctl status kubelet.service 这时候看出,报错名之k8s-master,但是我们kubernetes集群的node名字是cbov10-sso5…

记一次JAVA进程导致Kubernetes节点CPU飙高的排查与解决

一.发现问题在一次系统上线后,我们发现某几个节点在长时间运行后会出现CPU持续飙升的问题,导致的结果就是Kubernetes集群的这个节点会把所在的Pod进行驱逐(调度):如果调度到同样问题的节点上,也会出现Pod一直起不来的问题.我们尝试了杀死Pod后手动调度的办法(label),当然也可以排除调度节点.但是在一段时间后还会复现,我们通过监控系统也排查了这段时间的流量情况,但应该和CPU持续占用没有关联,这时我们意识到这可能是程序的问题. 二.排查问题定位Pod 这里使用kubectl t…

K8S线上集群排查，实测排查Node节点NotReady异常状态

一,文章简述大家好,本篇是个人的第 2 篇文章.是关于在之前项目中,k8s 线上集群中 Node 节点状态变成 NotReady 状态,导致整个 Node 节点中容器停止服务后的问题排查. 文章中所描述的是本人在项目中线上环境实际解决的,那除了如何解决该问题,更重要的是如何去排查这个问题的起因. 关于 Node 节点不可用的 NotReady 状态,当时也是花了挺久的时间去排查的. 二,Pod 状态在分析 NotReady 状态之前,我们首先需要了解在 k8s 中 Pod 的状态都有哪些.并…

六、Kubernetes节点与 Pod 亲和性

Kubernetes节点与 Pod 亲和性一.节点亲和性策略介绍 pod.spec.nodeAffinity preferredDuringSchedulingIgnoredDuringExecution:软策略 requiredDuringSchedulingIgnoredDuringExecution:硬策略 preferred:首选,较喜欢 required:需要,必修键值运算关系: In:label 的值在某个列表中 NotIn:label 的值不在某个列表中 Gt:label 的…

记录一个奇葩的问题：k8s集群中master节点上部署一个单节点的nacos,导致master节点状态不在线

情况详细描述; k8s集群,一台master,两台worker 在master节点上部署一个单节点的nacos,导致master节点状态不在线(不论是否修改nacos的默认端口号都会导致master节点不在线). 但是在worker节点上就可以. 报错信息如下: Message from syslogd@localhost at Jun 2 11:08:51 ... haproxy[1127]: proxy kube-master has no server available! Message…