runc hang 导致 Kubernetes 节点 NotReady】的更多相关文章

Kubernetes 1.19.3 OS: CentOS 7.9.2009 Kernel: 5.4.94-1.el7.elrepo.x86_64 Docker: 20.10.6 先说结论,runc v1.0.0-rc93 有 bug,会导致 docker hang 住. 发现问题 线上告警提示集群中存在 2-3 个 K8s 节点处于 NotReady 的状态,并且 NotReady 状态一直持续. kubectl describe node,有 NotReady 相关事件. 登录问题机器后,查看…
说下背景: 上周六机房进行搬迁,我所在的网段的机器都重启了一遍.重启之后kubernetes集群不正常.如下 排查过程: # 查看节点信息 kubectl describe nodes cbov10-sso55- 时间正好是上周五搬迁的时间点,20190809,kubelet停止发布节点状态 # 查看kubelet状态 systemctl status kubelet.service 这时候看出,报错名之k8s-master,但是我们kubernetes集群的node名字是cbov10-sso5…
一.发现问题 在一次系统上线后,我们发现某几个节点在长时间运行后会出现CPU持续飙升的问题,导致的结果就是Kubernetes集群的这个节点会把所在的Pod进行驱逐(调度):如果调度到同样问题的节点上,也会出现Pod一直起不来的问题.我们尝试了杀死Pod后手动调度的办法(label),当然也可以排除调度节点.但是在一段时间后还会复现,我们通过监控系统也排查了这段时间的流量情况,但应该和CPU持续占用没有关联,这时我们意识到这可能是程序的问题. 二.排查问题 定位Pod 这里使用kubectl t…
一,文章简述 大家好,本篇是个人的第 2 篇文章.是关于在之前项目中,k8s 线上集群中 Node 节点状态变成 NotReady 状态,导致整个 Node 节点中容器停止服务后的问题排查. 文章中所描述的是本人在项目中线上环境实际解决的,那除了如何解决该问题,更重要的是如何去排查这个问题的起因. 关于 Node 节点不可用的 NotReady 状态,当时也是花了挺久的时间去排查的. 二,Pod 状态 在分析 NotReady 状态之前,我们首先需要了解在 k8s 中 Pod 的状态都有哪些.并…
Kubernetes节点与 Pod 亲和性 一.节点亲和性策略介绍 ​pod.spec.nodeAffinity preferredDuringSchedulingIgnoredDuringExecution:软策略 requiredDuringSchedulingIgnoredDuringExecution:硬策略 preferred:首选,较喜欢 required:需要,必修 键值运算关系: In:label 的值在某个列表中 NotIn:label 的值不在某个列表中 Gt:label 的…
情况详细描述; k8s集群,一台master,两台worker 在master节点上部署一个单节点的nacos,导致master节点状态不在线(不论是否修改nacos的默认端口号都会导致master节点不在线). 但是在worker节点上就可以. 报错信息如下: Message from syslogd@localhost at Jun 2 11:08:51 ... haproxy[1127]: proxy kube-master has no server available! Message…
Kubernetes节点与令牌管理 一.令牌管理 查看令牌 [root@master ~]# kubeadm token list 删除令牌 [root@master ~]# kubeadm token delete <令牌值> 创建令牌-临时令牌 # 临时 token 生成: [root@master ~]# kubeadm token create 此 token 的有效期为 24 小时,过期后需要重新生成 token . 创建令牌-临时令牌 # 永久 token 生成: [root@ma…
转载自:https://www.qikqiak.com/post/how-to-change-k8s-node-ip/ 昨天网络环境出了点问题,本地的虚拟机搭建的 Kubernetes 环境没有固定 IP,结果节点 IP 变了,当然最简单的方式是将节点重新固定回之前的 IP 地址,但是自己头铁想去修改下集群的 IP 地址,结果一路下来踩了好多坑,压根就没那么简单~ 环境 首先看下之前的环境: ➜ ~ cat /etc/hosts 192.168.0.111 master1 192.168.0.1…
1.在k8smaster 服务器检查节点状态 kubectl describe nodes  aaaa #没有报错,异常信息   2.在节点上检查kubelet服务状态 netstat -tlanp|grep 6443 #正常连接到lk8s master 服务器   3.检查节点kubelet日志 journalctl -u kubelet >> kubelet.log    发现线索: 15 Dec 08 17:31:24 prd-swakopuranium-dmcu01 kubelet[1…
目录 前言 问题来了 问题又来了 问题分析 困惑 转机 后续 前言: 这是我上周工作过程中的一次解决问题的过程.解决的是nginx负载下站点错误响应导致其他节点重复响应. 我在整理这个记叙文时,在给这个文档命名时思考了一段时间. 从业务角度说,应该是“一次短信重复发送问题解决过程”,如果这样命名,过于土气:从技术角度说,应该是“nginx负载下站点错误响应会导致其他节点重复响应”,如果这样命名,可能没人会注意了:最后,我懒得再费脑汁了,从人类智慧的角度我把它命名为“复杂的问题,简单的解,小处不谨…