KingbaseES V8R6集群运维案例之---sys

案例说明：

sys_rewind是用于在数据库cluster的时间线分叉以后，同步一个 KingbaseES 数据库cluster 和同一数据库cluster另一份拷贝的工具。一种典型的场景是在失效后让一个旧的主库重新上线，同时作为一个备库连接新的主库。

成功回放后，目标数据目录的状态类似于源数据目录的基本备份。与进行新的基本备份或使用rsync等工具不同，sys_rewind不需要比较或复制数据库中未更改的数据块。仅复制现有数据文件中更改的块；所有其他文件（包括新的数据文件、配置文件和WAL段）都将被完整复制。因此，当数据库很大并且数据库之间只有一小部分块不同时，倒带（rewind）操作比其他方法要快得多。

适用版本：

KingbaseES V8R6

案例环境：

[kingbase@node101 bin]$ ./repmgr cluster show

 ID | Name    | Role    | Status    | Upstream | Location | Priority | Timeline | Connection string

----+---------+---------+-----------+----------+----------+----------+----------+----------------------------------------------------------------------------------------------------------------------------------------------------

 1  | node101 | primary | * running |          | default  | 100      | 27       | host=192.168.1.101 user=system dbname=esrep port=54321 connect_timeout=10 keepalives=1 keepalives_idle=10 keepalives_interval=1 keepalives_count=3

 2  | node102 | standby |   running | node101  | default  | 100      |

  27       | host=192.168.1.102 user=system dbname=esrep port=54321 connect_timeout=10 keepalives=1 keepalives_idle=10 keepalives_interval=1 keepalives_count=3

一、主备集群failover切换“双主”故障

[kingbase@node102 bin]$ ./repmgr cluster show

 ID | Name    | Role    | Status    | Upstream | Location | Priority | Timeline | Connection string

----+---------+---------+-----------+----------+----------+----------+----------+----------------------------------------------------------------------------------------------------------------------------------------------------

 1  | node101 | primary | ! running |          | default  | 100      | 29       | host=192.168.1.101 user=system dbname=esrep port=54321 connect_timeout=10 keepalives=1 keepalives_idle=10 keepalives_interval=1 keepalives_count=3

 2  | node102 | primary | * running |          | default  | 100      | 28       | host=192.168.1.102 user=system dbname=esrep port=54321 connect_timeout=10 keepalives=1 keepalives_idle=10 keepalives_interval=1 keepalives_count=3

=如上所示，在集群出现failover切换后，原备库切换为新主库；原主库被人为作为主库启动，导致集群出现“双主”的环境。=

二、双主故障的处理

1、如果原主库有新的数据写入，需通过业务数据判断，新主和原主那个节点上的业务数据最新，确定为主库。

2、可以通过读取控制文件，判断那个节点的事务最新（timeline、checkpoint、xid等），确定主库。

3、确定主库后，将另外的节点作为备库处理。

4、可以通过clone或sys_rewind方式将创建备库，加入到集群。

5、如果数据库数据量比较大，但新旧主库之间数据量变化差异比较小，可以考虑适用sys_rewind方式创建备库。

三、sys_rewind操作步骤

1、关闭原主库（目标库）数据库服务。（如果有条件，可以先做一个备份）

[kingbase@node101 bin]$ ./sys_ctl stop -D /data/kingbase/r6ha/data/

waiting for server to shut down.... done

server stopped

2、查看和配置相关配置参数

3、执行sys_rewind

Tips：

源  库： 新主库

目标库： 原主库（目标库的数据将被源库数据覆盖）

sys_rewind命令在目标库上执行，在执行sys_rewind之前需要关闭目标库数据库服务

（建议：关库后对数据库做物理冷备。）。

[kingbase@node101 bin]$ ./sys_rewind --target-data /data/kingbase/r6ha/data

    --source-server='host=192.168.1.102 port=54321 user=system dbname=test' –debug

4、sys_rewind执行过程分析

1）读取目标和源库控制文件对比system_id、version等

datadir_source = /data/kingbase/r6ha/data

sys_rewind: fetched file "global/sys_control", length 8192

sys_rewind: fetched file "sys_wal/0000001C.history", length 1174

2）读取目标和源库timeline的history文件寻找分叉点（diverged）

sys_rewind: Source timeline history:

sys_rewind: Target timeline history:

sys_rewind: 1: 0/0 - 0/690000A0

sys_rewind: 2: 0/690000A0 - 0/6A0000A0

.......

sys_rewind: 23: 3/320000A0 - 4/4B0000A0

sys_rewind: 24: 4/4B0000A0 - 4/4D0000A0

sys_rewind: 25: 4/4D0000A0 - 4/51001D00

sys_rewind: 26: 4/51001D00 - 4/520000A0

sys_rewind: 27: 4/520000A0 - 4/630000A0

sys_rewind: 29: 4/630000A0 - 0/0

sys_rewind: servers diverged at WAL location 4/540000A0 on timeline 27

sys_rewind: for record '27/4/54000028', remote hash is '0'

sys_rewind: for record '27/4/53000C20', local hash is '3038469505' and remote hash is '3038469505'

sys_rewind: rewinding from last common checkpoint at 4/53000C20 on timeline 27

sys_rewind: find last common checkpoint start time from 2022-09-13 14:18:54.005053 CST to 2022-09-13 14:18:54.123611 CST, in "0.118558" seconds.

3）拷贝源库数据文件和变化的页块到目标库

sys_rewind: backup_label.old (COPY)

sys_rewind: base/1/1247_fsm (COPY)

sys_rewind: base/1/1247_vm (COPY)

.......

sys_rewind: received chunk for file "base/32955/189163", offset 4325376, size 32768

sys_rewind: received chunk for file "base/32955/189163", offset 4358144, size 32768

sys_rewind: received chunk for file "base/32955/189163", offset 4390912, size 32768

sys_rewind: received chunk for file "base/32955/2619", offset 262144, size 32768

4）应用checkpoint后wal日志并更新目标库controlfile

sys_rewind: update the control file: minRecoveryPoint is '4/56E13200', minRecoveryPointTLI is '28', and database state is 'in archive recovery'

sys_rewind: we will remove the dir '/data/kingbase/r6ha/data/sys_replslot/repmgr_slot_2.rewind' and all the file/dir in it.

sys_rewind: rewind start wal location 4/53000BF0 (file 0000001B0000000400000053), end wal location 4/56E13200 (file 0000001C0000000400000056). time from 2022-09-13 14:18:54.005053 CST to 2022-09-13 14:19:05.426387 CST, in "11.421334" seconds.

sys_rewind: Done!

三、将新备库（目标库）加入到集群

1、在目标库创建standby.signal文件

[kingbase@node101 bin]$ touch /data/kingbase/r6ha/data/standby.signal

2、启动目标库数据库服务

[kingbase@node101 bin]$ ./sys_ctl start -D /data/kingbase/r6ha/data/

3、注册备库节点

[kingbase@node101 bin]$ ./repmgr standby register --force

INFO: connecting to local node "node101" (ID: 1)

DEBUG: connecting to: "user=system connect_timeout=10 dbname=esrep host=192.168.1.101 port=54321 keepalives=1 keepalives_idle=10 keepalives_interval=1 keepalives_count=3 fallback_application_name=repmgr"

INFO: connecting to primary database

DEBUG: connecting to: "user=system connect_timeout=10 dbname=esrep host=192.168.1.102 port=54321 keepalives=1 keepalives_idle=10 keepalives_interval=1 keepalives_count=3 fallback_application_name=repmgr"

DEBUG: remote_command():

  ssh -o Batchmode=yes -q -o ConnectTimeout=10 -o StrictHostKeyChecking=no -o ServerAliveInterval=2 -o ServerAliveCountMax=5 -p 22 192.168.1.102 /home/kingbase/cluster/R6HA/kha/kingbase/bin/kbha -A updateinfo

INFO: standby registration complete

NOTICE: standby node "node101" (ID: 1) successfully registered

4、查看集群节点状态信息

[kingbase@node101 bin]$ ./repmgr cluster show

 ID | Name    | Role    | Status    | Upstream | Location | Priority | Timeline | Connection string

----+---------+---------+-----------+----------+----------+----------+----------+----------------------------------------------------------------------------------------------------------------------------------------------------

 1  | node101 | standby |   running | node102  | default  | 100      | 28       | host=192.168.1.101 user=system dbname=esrep port=54321 connect_timeout=10 keepalives=1 keepalives_idle=10 keepalives_interval=1 keepalives_count=3

 2  | node102 | primary | * running |          | default  | 100      | 28       | host=192.168.1.102 user=system dbname=esrep port=54321 connect_timeout=10 keepalives=1 keepalives_idle=10 keepalives_interval=1 keepalives_count=3

 ---如上所示，集群节点恢复完成。

四、总结

sys_rewind是主备流复制集群中一个工具，可以用于集群节点的恢复，在应用中注意，sys_rewind执行过程中，将源库变化的页块拷贝到目标库后，会应用分叉点之前最近的checkpoint后的源库wal日志，如果wal日志缺失，将导致sys_rewind执行失败。sys_rewind执行失败后，目标将无法启动，执行前做好备份。

KingbaseES V8R6集群运维案例之---sys_rewind应用分析的更多相关文章

KingbaseES V8R6集群运维案例之---repmgr standby promote应用案例
案例说明: 在容灾环境中,跨区域部署的异地备节点不会自主提升为主节点,在主节点发生故障或者人为需要切换时需要手动执行切换操作.若主节点已经失效,希望将异地备机提升为主节点. $bin/repmgr s ...
KingbaseES V8R3集群运维案例之---主库系统down failover切换过程分析
案例说明: KingbaseES V8R3集群failover时两个cluster都会触发,但只有一个cluster会调用脚本去执行真正的切换流程,另一个有对应的打印,但不会调用脚本,只是走相关的 ...
KingbaseES V8R3集群运维案例之---kingbase_monitor.sh启动”two master“案例
案例说明: KingbaseES V8R3集群,执行kingbase_monitor.sh启动集群,出现"two master"节点的故障,启动集群失败:通过手工sys_ctl启动 ...
KingbaseES V8R3集群运维案例之---cluster.log ERROR: md5 authentication failed
案例说明: 在KingbaseES V8R3集群的cluster.log日志中,经常会出现"ERROR: md5 authentication failed:DETAIL: password ...
KingbaseES V8R3集群运维案例之---用户自定义表空间管理
案例说明: KingbaseES 数据库支持用户自定义表空间的创建,并建议表空间的文件存储路径配置到数据库的data目录之外.本案例复现了,当用户自定义表空间存储路径配置到data下时,出现的故障问 ...
kingbaseES V8R6集群备份恢复案例之---备库作为repo主机执行物理备份
案例说明: 此案例是在KingbaseES V8R6集群环境下,当主库磁盘空间不足时,执行sys_rman备份,将集群的备库节点作为repo主机,执行备份,并将备份存储在备库的磁盘空间. 集群架构 ...
KingbaseES V8R6集群外部备份案例
案例说明: 本案例采用sys_backup.sh执行物理备份,备份使用如下逻辑架构:集群采用CentOS 7系统,repo采用kylin V10 Server. 一主一备+外部备份此场景为主备双机常 ...
KingbaseES V8R6集群管理运维案例之---repmgr standby switchover故障
案例说明: 在KingbaseES V8R6集群备库执行"repmgr standby switchover"时,切换失败,并且在执行过程中,伴随着"repmr stan ...
KingbaseES V8R6集群维护案例之---停用集群node_export进程
案例说明: 在KingbaseES V8R6集群启动时,会启动node_exporter进程,此进程主要用于向kmonitor监控服务输出节点状态信息.在系统安全漏洞扫描中,提示出现以下安全漏洞: 对 ...
KingbaseES V8R6集群维护之--修改数据库服务端口案例
案例说明: 对于KingbaseES数据库单实例环境,只需要修改kingbase.conf文件的'port'参数即可,但是对于KingbaseES V8R6集群中涉及到多个配置文件的修改,并且在应 ...

随机推荐

vscode添加自定义html片段
最近在学vue,用的是微软的vscode 开发工具. 很不错,赞一下微软.里面包含了众多插件大家可以各取所需. 另外有一项实用的功能,User Snippets 用户自定义代码段, 对于那些需要重复编 ...
《系列一》-- 2、XmlBeanFactory 的类图介绍.md
阅读之前要注意的东西:本文就是主打流水账式的源码阅读,主导的是一个参考,主要内容需要看官自己去源码中验证.全系列文章基于 spring 源码 5.x 版本. Spring源码阅读系列--全局目录.md ...
压测模式该怎么选？RunnerGo五大压测模式详解
在做性能测试时需要根据性能需求配置不同的压测模式,如:阶梯模式.使用jmeter时我们需要安装插件来配置测试模式,RunnerGo内嵌了压测模式这一选项更方便使用,今天来看看RunnerGo的几种压测 ...
windows 上 ffmpeg 库的安装
真复杂啊安装 ffmpeg 库有两种途径,一种是自己下载源码再去编译,另一种是使用 vcpkg 自动安装一般情况下,第二种是最简单方便的,但是如果你需要使用 ffmpeg 的特定历史版本,那就有点 ...
【Android 逆向】【攻防世界】easy-dex
这一题不easy,不知为何叫这个名字.... 1. apk 安装到手机,不知所云,各种亮瞎眼闪光 2. jadx 打开apk,一行java代码都没有,打开AndroidManifest看看 <? ...
day01---操作系统安装环境准备
虚拟机安装操作系统步骤 1.新建虚拟主机 2.选择自定义 3.稍后安装操作系统 4.操作系统选择linux 5.选择存放位置 6.cpu和核数选择,默认即可 7.内存分配 8.网络选择 9.控制器类型 ...
pwd模块
# pwd模块提供了获取UNIX平台用户的账户与密码信息(通过文件/etc/passwd),在所有的UNIX版本平台都可以用. # pwd模块返回的是一个类似元组的对象,该对象的各个属性对应于pass ...
jdk17新特性梳理
jdk17新特性梳理目录 jdk17新特性梳理 jdk8升级至jdk17新特性梳理升级jdk17的理由新特性梳理可以在接口中定义私有方法,主要为了jdk8的default方法局部变量可以使用 ...
当云原生网关遇上图数据库，NebulaGraph 的 APISIX 最佳实践
本文介绍了利用开源 API 网关 APISIX 加速 NebulaGraph 多个场景的落地最佳实践:负载均衡.暴露接口结构与 TLS Termination. API 网关介绍什么是 API 网关 ...
Java 开发人员调度软件项目 (java基础编程总结项目)+javaBean+测试代码+数组知识+数据结构+继承+多态+封装+自定义异常，异常处理+构造器知识+重载+重写+接口+实现接口+关键字使用（static +equalsIgnoreCase+fianl+instanceof判断类型）+向下转型与向上转型
/** * * @Description Java 开发人员调度软件项目 (java基础编程总结项目) * +javaBean+测试代码+数组知识+数据结构+继承+多态+封装+自定义异常,异常处理 * ...

KingbaseES V8R6集群运维案例之---sys_rewind应用分析

KingbaseES V8R6集群运维案例之---sys_rewind应用分析的更多相关文章

随机推荐

热门专题