一.问题描述

二进制部署的单Master节点的v1.13.10版本的集群，etcd部署的是3.3.10版本，部署在master节点上。在异常断电后，kubernetes集群无法正常启动。这里通过查看kubernetes和etcd的服务日志信息，发现etcd服务异常，无法重新启动，具体日志信息如下：

Jun 29 09:39:37 k8s001 etcd[3348]: recovered store from snapshot at index 2600026

Jun 29 09:39:37 k8s001 etcd[3348]: recovering backend from snapshot error: database snapshot file path error: snap: snapshoJun 29 09:39:37 k8s001.wf etcd[3348]: panic: r

ecovering backend from snapshot error: database snapshot file path error: snap: Jun 29 09:39:37 k8s001 etcd[3348]: panic: runtime error: invalid memory address or nil pointer dereferenceJun 29 09:39:37 k8s001 etcd[3348]: [signal SIGSEGV: segmentation violation code=0x1 addr=0x20 pc=0xb8cb90]

Jun 29 09:39:37 k8s001 etcd[3348]: goroutine 1 [running]:

Jun 29 09:39:37 k8s001 etcd[3348]: github.com/coreos/etcd/cmd/vendor/github.com/coreos/etcd/etcdserver.NewServer.func1(0xc4Jun 29 09:39:37 k8s001 etcd[3348]: /tmp/etc

d-release-3.3.10/etcd/release/etcd/gopath/src/github.com/coreos/etcd/cmd/vendor/Jun 29 09:39:37 k8s001.wf etcd[3348]: panic(0xde0ce0, 0xc4200b10a0)Jun 29 09:39:37 k8s001 etcd[3348]: /usr/local/go/src/runtime/panic.go:502 +0x229

Jun 29 09:39:37 k8s001 etcd[3348]: github.com/coreos/etcd/cmd/vendor/github.com/coreos/pkg/capnslog.(*PackageLogger).PanicfJun 29 09:39:37 k8s001 etcd[3348]: /tmp/etc

d-release-3.3.10/etcd/release/etcd/gopath/src/github.com/coreos/etcd/cmd/vendor/Jun 29 09:39:37 k8s001.wf etcd[3348]: github.com/coreos/etcd/cmd/vendor/github.com/coreos/etcd/etcdserver.NewServer(0x7ffe787eJun 29 09:39:37 k8s001.wf etcd[3348]: /tmp/etcd-release-3.3.10/etcd/release/etcd/gopath/src/github.com/coreos/etcd/cmd/vendor/Jun 29 09:39:37 k8s001 etcd[3348]: github.com/coreos/etcd/cmd/vendor/github.com/coreos/etcd/embed.StartEtcd(0xc42019d680, 0Jun 29 09:39:37 k8s001 etcd[3348]: /tmp/etcd-release-3.3.10/etcd/release/etcd/gopath/src/github.com/coreos/etcd/cmd/vendor/

通过查看异常日志来看，etcd执行了恢复操作，但是无法从现有的快照数据进行数据恢复。这里查看了资料，发现社区也有类似的问题，此问题暂未修复：

https://github.com/etcd-io/etcd/issues/11949

https://github.com/kubernetes/kubernetes/issues/88574

二.问题解决方案

对于单master节点的集群，master作为整个集群的核心，如果etcd服务挂掉，将影响我们整个集群的使用。因此这里对etcd做一个备份方案，以备不时之需。

2.1备份方案

这个我们采用kubernetes的CronJob来实现etcd数据的定时备份。也就是kubernetes集群正常时，CronJob执行定时备份任务，如果kubernetes集群异常，则CrobJob也将不会执行。

备份etcd数据的yaml文件

[root@k8s001 home]# cat etcd_cronjob.yaml

---

apiVersion: batch/v2alpha1

kind: CronJob

metadata:

  name: etcd-backup

spec:

 # 30分钟执行一次备份

 schedule: "*/30 * * * *"

 jobTemplate:

  spec:

    template:

      metadata:

       labels:

        app: etcd-disaster-recovery

      spec:

        affinity:

          nodeAffinity:

            requiredDuringSchedulingIgnoredDuringExecution:

                  nodeSelectorTerms:

                  - matchExpressions:

                    - key: kubernetes.io/role

                      operator: In

                      values:

                      - master

        containers:

        - name: etcd

          image: etcd:backup

          command:

          - sh

          - -c

          - "export ETCDCTL_API=3; \

             # 备份前执行下清理的操作，最多保留6个快照

             sh -x /usr/bin/delete_image_reserver_5.sh; \

             etcdctl --endpoints $ENDPOINT snapshot save /snapshot/$(date +%Y%m%d_%H%M%S)_snapshot.db; \

             echo etcd backup sucess"

          env:

          - name: ENDPOINT

            value: "127.0.0.1:2379"

          volumeMounts:

            - mountPath: "/snapshot"

              name: snapshot

              subPath: etcd-snapshot

            - mountPath: /etc/localtime

              name: lt-config

            - mountPath: /etc/timezone

              name: tz-config

        restartPolicy: OnFailure

        volumes:

          - name: snapshot

            hostPath:

              path: /var

          - name: lt-config

            hostPath:

              path: /etc/localtime

          - name: tz-config

            hostPath:

              path: /etc/timezone

        hostNetwork: true

# 设置master节点可调度

[root@k8s001 ~]# kubectl uncordon ${masterip}

# 创建定时备份任务

# 创建etcd定时备份的job

[root@k8s001 home]# kubectl apply -f etcd_cronjob.yaml

# 查看备份的快照

[root@k8s001 ~]# ls /var/etcd-snapshot/ -alh

total 45M

drwxr-xr-x   2 root root  216 Jun 30 16:05 .

drwxr-xr-x. 20 root root  288 Jun 28 16:10 ..

-rw-r--r--   1 root root 7.5M Jun 30 15:45 20200630_154509_snapshot.db

-rw-r--r--   1 root root 7.5M Jun 30 15:50 20200630_155009_snapshot.db

-rw-r--r--   1 root root 7.5M Jun 30 15:55 20200630_155510_snapshot.db

-rw-r--r--   1 root root 7.5M Jun 30 16:00 20200630_160010_snapshot.db

-rw-r--r--   1 root root 7.5M Jun 30 16:03 20200630_160357_snapshot.db

-rw-r--r--   1 root root 7.5M Jun 30 16:05 20200630_160510_snapshot.d

# 监控任务执行情况

[root@k8s001 ~]# kubectl get job --watch

NAME                                   COMPLETIONS   DURATION   AGE

etcd-backup-1593504000   1/1           1s         9m20s

2.2 验证

这里我们验证下创建的快照是否可以进行数据的恢复：

2.2.1 停止集群的etcd服务和删除etcd数据

# 停止etcd服务

[root@k8s001 ~]# systemctl stop etcd

# 删除etcd数据

[root@k8s001 ~]# rm -rf /var/lib/etcd

# 查看集群服务是否还正常

[root@k8s001 ~]# kubectl get pod

The connection to the server 172.16.33.5:6443 was refused - did you specify the right host or port?

2.2.2 基于etcd快照恢复数据目录

[root@k8s001 ~]# cd /var/etcd_backup/

# 这里选用最新的一个快照进行数据目录恢复

[root@k8s001 ~]# export ETCDCTL_API=3

[root@k8s001 ~]# etcdctl snapshot restore 20200630_161001_snapshot.db --data-dir /var/lib/etcd

2020-06-30 16:19:29.789757 I | mvcc: restore compact to 6142751

2020-06-30 16:19:29.807133 I | etcdserver/membership: added member 8e9e05c52164694d [http://localhost:2380] to cluster cdf818194e3a8c32

# 查看执行快照恢复后的数据目录

[root@k8s001 etcd-snapshot]# tree /var/lib/etcd/

/var/lib/etcd/

└── member

    ├── snap

    │   ├── 0000000000000001-0000000000000001.snap

    │   └── db

    └── wal

        └── 0000000000000000-0000000000000000.wal

# 启动etcd服务

[root@k8s001 etcd-snapshot]# systemctl restart etcd

[root@k8s001 etcd-snapshot]# systemctl status etcd

● etcd.service - Etcd Server

   Loaded: loaded (/etc/systemd/system/etcd.service; enabled; vendor preset: disabled)

   Active: active (running) since Tue 2020-06-30 16:20:27 CST; 6s ago

     Docs: https://github.com/coreos

 Main PID: 3069327 (etcd)

    Tasks: 15

   Memory: 17.5M

   CGroup: /system.slice/etcd.service

           └─3069327 /usr/bin/etcd --name=k8s001 --cert-file=/etc/etcd/ssl/etcd.pem --key-file=/etc/etcd/ssl/etcd-key.pem --peer-cert-file=/etc/etcd/ssl/etcd.pem --pe...

Jun 30 16:20:27 k8s001 etcd[3069327]: raft.node: 8e9e05c52164694d elected leader 8e9e05c52164694d at term 2

Jun 30 16:20:27 k8s001 etcd[3069327]: setting up the initial cluster version to 3.3

Jun 30 16:20:27 k8s001 etcd[3069327]: set the initial cluster version to 3.3

Jun 30 16:20:27 k8s001 etcd[3069327]: published {Name:k8s001 ClientURLs:[https://172.16.33.5:2379]} to cluster cdf818194e3a8c32

Jun 30 16:20:27 k8s001 etcd[3069327]: enabled capabilities for version 3.3

Jun 30 16:20:27 k8s001 etcd[3069327]: ready to serve client requests

Jun 30 16:20:27 k8s001 etcd[3069327]: ready to serve client requests

Jun 30 16:20:27 k8s001 systemd[1]: Started Etcd Server.

Jun 30 16:20:27 k8s001 etcd[3069327]: serving insecure client requests on 127.0.0.1:2379, this is strongly discouraged!

Jun 30 16:20:27 k8s001 etcd[3069327]: serving client requests on 172.16.33.5:2379

# 查看业务的服务是否丢失，从下面可知业务服务恢复正常

[root@k8s001 etcd-snapshot]# kubectl get pod -n business -o wide

NAME                          READY   STATUS      RESTARTS   AGE   IP             NODE            NOMINATED NODE   READINESS GATES

redis-4ghyausyd-9hejh         1/1     Running     1          28d   172.20.0.30    172.16.33.5   <none>           <none>

mysql-c6994b67c-jx9rb         1/1     Running     0          28d   172.20.0.233   172.16.33.5   <none>           <none>

kubernetes集群断电后etcd启动失败之etcd备份方案的更多相关文章

高可用Kubernetes集群-3. etcd高可用集群
五．部署高可用etcd集群 etcd是key-value存储(同zookeeper),在整个kubernetes集群中处于中心数据库地位,以集群的方式部署,可有效避免单点故障. 这里采用静态配置的方式 ...
Hadoop hbase集群断电数据块被破坏无法启动
集群机器意外断电重启,导致hbase 无法正常启动,抛出reflect invocation异常,可能是正在执行的插入或合并等操作进行到一半时中断,导致部分数据文件不完整格式不正确或在hdfs上blo ...
Kubernetes 集群部署（2） -- Etcd 集群
Kubenetes 集群部署规划: 192.168.137.81 Master 192.168.137.82 Node 192.168.137.83 Node 以下在 Master 节点操作. ...
探针配置失误，线上容器应用异常死锁后，kubernetes集群未及时响应自愈重启容器？
探针配置失误,线上容器应用异常死锁后,kubernetes集群未及时响应自愈重启容器? 探针配置失误,线上容器应用异常死锁后,kubernetes集群未及时响应自愈重启容器? 线上多个服务应用陷入了死 ...
k8s集群关机后，如何解决 kubernetes 重启起不来的问题
如何解决 kubernetes 重启后,启来不来的问题登录自己的Kubernetes测试集群时发现集群好像没有启动成功运行 kubectl get pods --all -A ,报错如下. 第一反 ...
Kubernetes集群部署之三ETCD集群部署
kuberntes 系统使用 etcd 存储所有数据,本文档介绍部署一个三节点高可用 etcd 集群的步骤,这三个节点复用 kubernetes 集群机器k8s-master.k8s-node-1.k ...
集群重启后启动ambari-server访问Web页面无法启动集群解决
集群重启后启动ambari-server访问Web页面无法启动集群解决使用ambari部署的集群重新启动后,必须手动重启ambari-server和所有集群主机上的ambari-agent. amb ...
给你的Kubernetes集群建一个只读账户（防止高管。。。后）
给你的Kubernetes集群建一个只读账户需求:我们知道搭完k8s集群会创建一个默认的管理员kubernetes-admin用户该用户拥有所以权限,有一天开发或测试的同学需要登录到k8s集群了解业 ...
kubernetes 集群的安装部署
本文来自我的github pages博客http://galengao.github.io/ 即www.gaohuirong.cn 摘要: 首先kubernetes得官方文档我自己看着很乱,信息很少, ...

随机推荐

客户的一个紧急bug，我用了两种方式进行 C# 反编译修改源码
一:背景 1. 讲故事周五下午运营反馈了一个紧急bug,说客户那边一个信息列表打不开,急需解决,附带的日志文件也发过来了,看了下日志大概是这样的: 日期:2020-11-13 12:25:45,92 ...
如何删除一台OSD主机
在ceph的一台OSD主机出现故障的时候,数据可以通过副本的机制进行恢复,之后通过删除osd的操作也能够将故障osd从osd tree当中删除掉,但是故障的 osd 的主机仍然会留在集群当中,通过 c ...
Spring之事务源码
对@Transactional注解的类进行动态代理同前文<Spring AOP源码分析>中分析动态代理入口一样,都是在initializeBean时执行. Object exposedO ...
com.aliyun.oss.ClientException: Connection error due to: Connection pool shut down
com.aliyun.oss.ClientException: Connection error due to: Connection pool shut down[ErrorCode]: Unkno ...
vue实现增删改查（内附源代码）
VUE+Element实现增删改查 @ 目录 VUE+Element实现增删改查前言实验步骤总结: 源代码前言 &最近因为一些原因,没有更博客,昨天老师布置了一个作业,用vue实现增删 ...
unity 顶点弹性网格效果
1.球衰减首先,我们将处理球衰减,鼠标或手指点中网格的点是碰撞点,越往外它所受的影响越小.我们需要从CPU中获取"_ImpactPos"这个碰撞点,获取摄像机和碰撞点的矢量,我们 ...
常见web漏洞修复方法
方法如下: 漏洞修复.(输入过滤,输出转义) 1.在连接数据库时,在接收参数后进行转义,$id = mysql_real_escape_string($id); 2.在网页源码中在接收参数后可用htm ...
面试阿里，字节跳动90%会被问到的Java异常面试题集，史上最全系列！
Java异常架构与异常关键字 Java异常简介 Java异常是Java提供的一种识别及响应错误的一致性机制. Java异常机制可以使程序中异常处理代码和正常业务代码分离,保证程序代码更加优雅,并提高程 ...
如何在FL Studio中使用自动剪辑（下）
在上集中我想大家介绍了FL Stduio Automation Clip的创建.播放列表操作及包络线类型介绍,在这篇文章中我将会给大家介绍如何在播放列表中使用Automation,剪辑通道的操作及使用 ...
CorelDRAW常用工具之橡皮擦工具
很多作图以及设计软件都会自带橡皮擦工具,但对于专业做平面设计的小伙伴来说,普通的橡皮工具肯定是无法满足日常作图需求的,今天来看看CorelDRAW的橡皮擦能玩出什么花样来. 1.擦除对象 CorelD ...

kubernetes集群断电后etcd启动失败之etcd备份方案