一,文章简述 大家好,本篇是个人的第 2 篇文章.是关于在之前项目中,k8s 线上集群中 Node 节点状态变成 NotReady 状态,导致整个 Node 节点中容器停止服务后的问题排查. 文章中所描述的是本人在项目中线上环境实际解决的,那除了如何解决该问题,更重要的是如何去排查这个问题的起因. 关于 Node 节点不可用的 NotReady 状态,当时也是花了挺久的时间去排查的. 二,Pod 状态 在分析 NotReady 状态之前,我们首先需要了解在 k8s 中 Pod 的状态都有哪些.并…
PS:所有机器主机名请提前设置好 在上一篇,ETCD集群我们已经搭建成功了,下面我们需要搭建master相关组件,apiverser需要与etcd通信并操作 1.配置证书 将etcd证书上传到master节点,在etcd01上操作 USER=root export K8SHOST1=192.168.1.27 for HOST in ${K8SHOST1} do ssh ${USER}@${HOST} 'mkdir -p /etc/kubernetes/pki/etcd' scp -r /etc/…
  IP Hostname   192.168.1.23 k8s-etcd-01 etcd集群节点,默认关于ETCD所有操作均在此节点上操作 192.168.1.24 k8s-etcd-02 etcd集群节点 192.168.1.25 k8s-etcd-03 etcd集群节点 192.168.1.27 k8s-master-01 Work Master集群节点,默认关于k8s所有操作均在此节点上操作 192.168.1.28 k8s-master-02 Work Master集群节点 192.1…
在上一章<kubeadm搭建kubernetes集群之二:创建master节点>的实战中,我们把kubernetes的master节点搭建好了,本章我们将加入node节点,使得整个环境可以部署应用: 前提条件 由于要用到谷歌的服务,所以要求您的网络环境可以***,具体的方案就不在这里说了: 复制文件 如下图所示,cent7是我们上一章操作完成后对应的CentOS7的VMware文件夹,node1.node2都是直接复制cent7文件夹再粘贴生成的: 启动 请参照<kubeadm搭建kub…
服务端操作: 方法一: 获取master的join token kubeadm token create --print-join-command 重新加入节点 kubeadm join 192.168.1.7:6443 --token iweubu.ebjsywhlaklmgjep     --discovery-token-ca-cert-hash sha256:f03b27e002e77fcec510e057385ce382c02171b7f28d71ac95d8ac0f7c7330b1…
目录 文章目录 目录 部署环境 1. etcd 集群启动失败 解决 2. etcd 健康状态检查失败 解决 3. kube-apiserver 启动失败 解决 4. kubelet 启动失败 解决 5. Approved CSR 后获取 nodes 失败 解决 6. 访问 pod app 失败 解决 部署环境 双节点 IP 配置: # cat /etc/hosts 192.168.1.5 vmnote0 192.168.1.12 vmnote1 部署文档:https://jimmysong.io…
Linux(2)---记录一次线上服务 CPU 100%的排查过程 当时产生CPU飙升接近100%的原因是因为项目中的websocket时时断开又重连导致CPU飙升接近100% .如何排查的呢 是通过日志输出错误信息: 得知websocket时时重新 连接的信息,然后找到原因 解决了. 当然这里幸好能通过日志大致分析出原因 那么我就在思考如果日志没有告诉任何信息 但线上CPU还是接近100%那么如何排查呢.所以学习了下排查过程. 通过查阅资料并实践后,这里总结了两种办法.第一种博客满天飞的方法…
一次线上CPU高的问题排查实践 前言 近期某一天上班一开电脑,就收到了运维警报,有两台服务CPU负载很高,同时收到一线同事反馈 系统访问速度非常慢,几乎无响应. 一个美好的早晨,最怕什么就来什么.只好推掉其他会议,专心搞定问题. 排查 登录系统一看,后端的接口访问果然全部超时. 先使用top命令查看下是由哪个进程占用CPU较高. 从图上可看出,pid=26481的Java进程占用了385%的CPU,机器是4核8G的配置. 2.然后查看下是哪个Java应用 ps -ef | grep java 发…
本文转载自线上CPU飙升100%问题排查 引子 对于互联网公司,线上CPU飙升的问题很常见(例如某个活动开始,流量突然飙升时),按照本文的步骤排查,基本1分钟即可搞定!特此整理排查方法一篇,供大家参考讨论提高. 问题复现 线上系统突然运行缓慢,CPU飙升,甚至到100%,以及Full GC次数过多,接着就是各种报警:例如接口超时报警等.此时急需快速线上排查问题. 问题排查 不管什么问题,既然是CPU飙升,肯定是查一下耗CPU的线程,然后看看GC. 核心排查步骤 1.执行"top"命令:…
1. kubernetes介绍 1.1 kubernetes简介 kubernetes的本质是一组服务器集群,它可以在集群的每个节点上运行特定的程序,来对节点中的容器进行管理.目的是实现资源管理的自动化,主要提供了如下的主要功能: 自我修复:一旦某一个容器崩溃,能够在1秒中左右迅速启动新的容器 弹性伸缩:可以根据需要,自动对集群中正在运行的容器数量进行调整 服务发现:服务可以通过自动发现的形式找到它所依赖的服务 负载均衡:如果一个服务起动了多个容器,能够自动实现请求的负载均衡 版本回退:如果发现…