KingbaseES V8R3集群运维案例之---备库状态‘down’修复

案例说明：

Kingbase V8R3集群，集群启动正常，备库数据库服务正常，流复制状态正常。但是备库在show pool_nodes下查看是‘down’状态，通过pcp_attach_node重新注册节点后，仍然是‘down’，通过复制（cp）主库data方式重建备库后，仍然没有解决。

此文档，详细介绍了此问题的分析和解决过程。

适用版本：

KingbaseES V8R3

集群节点信息：

一、问题现象

1、节点状态信息

TEST=# show pool_nodes;

 node_id |   hostname    | port  | status | lb_weight |  role   | select_cnt | load_balance_node | replication_delay

---------+---------------+-------+--------+-----------+---------+------------+-------------------+-------------------

 0       | 192.168.1.101 | 54321 | up     | 0.500000  | primary | 0          | true              | 0

 1       | 192.168.1.102 | 54321 | down   | 0.500000  | standby | 0          | false             | 0

(2 rows)

### 如上所示，备库节点状态‘down’。

2、流复制状态信息

TEST=# select * from sys_stat_replication;

  PID  | USESYSID | USENAME | APPLICATION_NAME |  CLIENT_ADDR  | CLIENT_HOSTNAME | CLIENT_PORT |         BACKEND_START         |BACKEND_XMIN |   STATE   | SENT_LOCATION | WRITE_LOCATION | FLUSH_LOCATION | REPLAY_LOCATION | SYNC_PRIORITY | SYNC_STATE

-------+----------+---------+------------------+---------------+-----------------+-------------+-------------------------------+--------------+-----------+---------------+----------------+----------------+-----------------+---------------+------------

 11393 |       10 | SYSTEM  | node102          | 192.168.1.102 |                 |       28251 | 2022-09-21 16:25:46.638372+08 |             | streaming | 2/41237A0     | 2/41237A0      | 2/41237A0      | 2/41237A0       |             2 | sync

(1 row)

二、问题分析和解决

Tips：

一般对于以上问题，可以通过pcp_attach_node方式注册节点，恢复到‘up’状态。

1、注册备库节点

[kingbase@node101 bin]$ ./pcp_attach_node -U kingbase 1

Password:

pcp_attach_node -- Command Successful

[kingbase@node101 bin]$ ./pcp_node_info -U kingbase  1

Password:

192.168.1.102 54321 1 0.500000 waiting

[kingbase@node101 bin]$ ./pcp_node_info -U kingbase  1

Password:

192.168.1.102 54321 2 0.500000 up

[kingbase@node101 bin]$ ./pcp_node_info -U kingbase  1

Password:

192.168.1.102 54321 3 0.500000 down

##如上所示，执行备库节点注册后仍然是‘down’状态。

2、查看备库recovery.log

......

primary node/Im node status is changed, primary ip[192.168.1.101], recovery.conf NEED_CHANGE [0] (0 is need ), I,m status is [1] (1 is down), I will be in recovery.

 node_id |   hostname    | port  | status | lb_weight |  role   | select_cnt | load_balance_node | replication_delay

---------+---------------+-------+--------+-----------+---------+------------+-------------------+-------------------

 0       | 192.168.1.101 | 54321 | up     | 0.500000  | primary | 0          | true              | 0

 1       | 192.168.1.102 | 54321 | down   | 0.500000  | standby | 0          | false             | 0

(2 rows)

if recover node up, let it down , for rewind

waiting for server to shut down.... done

server stopped

2022-09-21 16:18:36 set /home/kingbase/cluster/R3HA/db/data down now... already down , check again

wait kb stop 5 sec .......

2022-09-21 16:18:37 sys_rewind...

sys_rewind  --target-data=/home/kingbase/cluster/R3HA/db/data --source-server="host=192.168.1.101 port=54321 user=SUPERMANAGER_V8ADMIN dbname=TEST"

datadir_source = /home/kingbase/cluster/R3HA/db/data

rewinding from last common checkpoint at 2/125C2A0 on timeline 19

find last common checkpoint start time from 2022-09-21 16:18:37.147787 CST to 2022-09-21 16:18:37.178836 CST, in "0.031049" seconds.

reading source file list

reading target file list

reading WAL in target

Rewind datadir file from source

update the control file: minRecoveryPoint is '2/127FA40', minRecoveryPointTLI is '19', and database state is 'in archive recovery'

rewind start wal location 2/125C268 (file 000000130000000200000001), end wal location 2/127FA40 (file 000000130000000200000001). time from 2022-09-21 16:18:37.147787 CST to 2022-09-21 16:18:38.887227 CST, in "1.739440" seconds.

Done!

server started

ksql "port=54321 user=SUPERMANAGER_V8ADMIN dbname=TEST connect_timeout=10"   -c "select 33333;"

 SYS_CREATE_PHYSICAL_REPLICATION_SLOT

--------------------------------------

 (slot_node101,)

(1 row)

2022-09-21 16:18:43 create the slot [slot_node101] success.

 SYS_CREATE_PHYSICAL_REPLICATION_SLOT

--------------------------------------

 (slot_node102,)

(1 row)

2022-09-21 16:18:43 create the slot [slot_node102] success.

2022-09-21 16:18:43 start up standby successful!

can not get the replication of myself

---日志显示，在执行pcp_attach_node后，执行sys_rewind做节点的recovery，

sys_rewind执行成功，备库仍然为‘down’状态。

3、查看备库recovery配置文件

1）recovery.conf 配置

[kingbase@node102 data]$ cat recovery.conf

standby_mode='on'

primary_conninfo='port=54321 host=192.168.1.101 user=SYSTEM password=MTIzNDU2 application_name=node101

primary_slot_name ='slot_node101'

2）备库etc/recovery.done

[kingbase@node102 data]$ cat etc/recovery.done

standby_mode='on'

primary_conninfo='port=54321 host=192.168.1.101 user=SYSTEM password=MTIzNDU2 application_name=node101

primary_slot_name ='slot_node101'

3）查看主库recovery.done

[kingbase@node101 bin]$ cat ../data/recovery.done

standby_mode='on'

primary_conninfo='port=54321 host=192.168.1.102 user=SYSTEM password=MTIzNDU2 application_name=node101'

recovery_target_timeline='latest'

primary_slot_name ='slot_node101'

4、查看备库复制槽信息

TEST=# select * from sys_replication_slots;

  SLOT_NAME   | PLUGIN | SLOT_TYPE | DATOID | DATABASE | ACTIVE | ACTIVE_PID |  XMIN  | CATALOG_XMIN | RESTART_LSN | CONFIRMED_FL

USH_LSN

--------------+--------+-----------+--------+----------+--------+------------+--------+--------------+-------------+-------------

--------

 slot_node101 |        | physical  |        |          | t      |       6937 | 114712 |              | 2/12A1468   |

 slot_node102 |        | physical  |        |          | f      |            | 113518 |              | 1/FD000878  |

(2 rows)

###由于备库recovery.conf配置问题，导致流复制备库应用了错误的复制槽。

四、问题解决

1、修改备库recovery.conf

[kingbase@node102 data]$ cat recovery.conf

standby_mode='on'

primary_conninfo='port=54321 host=192.168.1.101 user=SYSTEM password=MTIzNDU2 application_name=node102

primary_slot_name ='slot_node102'

2、备库etc/recovery.done

[kingbase@node102 data]$ cat etc/recovery.done

standby_mode='on'

primary_conninfo='port=54321 host=192.168.1.101 user=SYSTEM password=MTIzNDU2 application_name=node102

primary_slot_name ='slot_node102'

3、关闭备库数据库服务

[kingbase@node102 bin]$ ./sys_ctl stop -D ../data

waiting for server to shut down.... done

server stopped

4、删除复制槽

TEST=# select sys_drop_replication_slot('slot_node101');

 SYS_DROP_REPLICATION_SLOT

---------------------------

(1 row)

5、重启集群

[kingbase@node101 bin]$ ./kingbase_monitor.sh restart

6、查看节点状态

TEST=# show pool_nodes;

 node_id |   hostname    | port  | status | lb_weight |  role   | select_cnt | load_balance_node | replication_delay

---------+---------------+-------+--------+-----------+---------+------------+-------------------+-------------------

 0       | 192.168.1.101 | 54321 | up     | 0.500000  | primary | 0          | true              | 0

 1       | 192.168.1.102 | 54321 | up     | 0.500000  | standby | 0          | false             | 0

(2 rows)

[kingbase@node101 bin]$ ./pcp_node_info -U kingbase 1

Password:

192.168.1.102 54321 2 0.500000 up

[kingbase@node101 bin]$ ./pcp_node_info -U kingbase 0

Password:

192.168.1.101 54321 2 0.500000 up

###如上所示，备库节点已经正常。

7、查看备库recovery.log

.......

2022-09-21 16:37:02 check if the network is ok

ping trust ip 192.168.1.1 success ping times :[3], success times:[2]

determine if i am master or standby

 node_id |   hostname    | port  | status | lb_weight |  role   | select_cnt | load_balance_node | replication_delay

---------+---------------+-------+--------+-----------+---------+------------+-------------------+-------------------

 0       | 192.168.1.101 | 54321 | up     | 0.500000  | primary | 0          | false             | 0

 1       | 192.168.1.102 | 54321 | up     | 0.500000  | standby | 0          | true              | 0

(2 rows)

i am standby in cluster,determine if recovery is needed

2022-09-21 16:37:04 now will del vip [192.168.1.200/24]

but no 192.168.1.200/24 on my DEV, nothing to do with del

cluster is sync cluster.

now,there is a synchronous standby.

2022-09-21 16:37:07 ALL NODES ARE UP STATUS!

2022-09-21 16:37:07 ALL NODES ARE UP STATUS!

###如上所示，recovery.log中备库状态信息已经正常。

五、总结

1、对于集群出现的问题，要从多个方面进行分析、判断，找到问题发生的根本原因。

2、对于备库的clone，尽量不要使用静态copy方式，此种方式备库需修改的文件较多，难免有遗漏，出现集群故障问题。

3、建议使用sys_basebackup执行备库clone，clone后注意检查备库集群配置文件。

KingbaseES V8R3集群运维案例之---备库状态‘down’修复的更多相关文章

KingbaseES V8R3集群运维案例之---主库系统down failover切换过程分析
案例说明: KingbaseES V8R3集群failover时两个cluster都会触发,但只有一个cluster会调用脚本去执行真正的切换流程,另一个有对应的打印,但不会调用脚本,只是走相关的 ...
KingbaseES V8R3集群运维案例之---kingbase_monitor.sh启动”two master“案例
案例说明: KingbaseES V8R3集群,执行kingbase_monitor.sh启动集群,出现"two master"节点的故障,启动集群失败:通过手工sys_ctl启动 ...
KingbaseES V8R3集群运维案例之---cluster.log ERROR: md5 authentication failed
案例说明: 在KingbaseES V8R3集群的cluster.log日志中,经常会出现"ERROR: md5 authentication failed:DETAIL: password ...
KingbaseES V8R3集群运维案例之---用户自定义表空间管理
案例说明: KingbaseES 数据库支持用户自定义表空间的创建,并建议表空间的文件存储路径配置到数据库的data目录之外.本案例复现了,当用户自定义表空间存储路径配置到data下时,出现的故障问 ...
KingbaseES V8R6集群运维案例之---repmgr standby promote应用案例
案例说明: 在容灾环境中,跨区域部署的异地备节点不会自主提升为主节点,在主节点发生故障或者人为需要切换时需要手动执行切换操作.若主节点已经失效,希望将异地备机提升为主节点. $bin/repmgr s ...
kingbaseES V8R6集群备份恢复案例之---备库作为repo主机执行物理备份
案例说明: 此案例是在KingbaseES V8R6集群环境下,当主库磁盘空间不足时,执行sys_rman备份,将集群的备库节点作为repo主机,执行备份,并将备份存储在备库的磁盘空间. 集群架构 ...
KingbaseES V8R3集群管理维护案例之---集群迁移单实例架构
案例说明: 在生产中,需要将KingbaseES V8R3集群转换为单实例架构,可以采用以下方式快速完成集群架构的迁移. 适用版本: KingbaseES V8R3 当前数据库版本: TEST=# s ...
KingbaseES集群管理维护案例之---备库checkpoint分析
数据库异常关闭时,数据库关闭时来不及或者没机会做checkpoint,则需要从上一个一致性检查的开始恢复.KingbaseES备机checkpoint是不能产生checkpoint WAL日志条目 ...
KingbaseES V8R3集群维护案例之---pcp_node_refresh应用
案例说明: 在一次KingbaseES V8R3集群切换分析中,运维人员执行了pcp_node_refresh,导致集群发生了failover的切换.此文档对pcp_node_refresh工具做了应 ...
KingbaseES V8R3集群管理和维护案例之---failover切换wal日志变化分析
案例说明: 本案例通过对KingbaseES V8R3集群failover切换过程进行观察,分析了主备库切换后wal日志的变化,对应用者了解KingbaseES V8R3(R6) failover ...

随机推荐

col命令
col命令在很多UNIX说明文件里,都有RLF控制字符,当我们把说明文件的内容输出成纯文本文件时,控制字符会变成乱码,col命令则能有效滤除这些控制字符. 语法 col [options] 参数 - ...
微信小程序获取本日、本周、本月、本年时间段
原文链接 https://cslaoxu.vip/110.html 说明最近需要用到统计不同时间段内的记录数,所以找了一下现成的工具类.下面就演示一下如何引用到实际项目中. 详细用法请参考:http ...
win32 - IFolderView2::GetCurrentFolderFlags的使用
网上关于IFolderView2接口调用的示例有点少. 下面的例子是将桌面的图标隐藏起来,使用了FWF_NOICONS样式. #include <ShlObj.h> // Shell AP ...
【Android逆向】脱壳项目frida_dump 原理分析
脱dex核心文件dump_dex.js 核心函数 function dump_dex() { var libart = Process.findModuleByName("libart.so ...
git回退至指定版本，并更新远程仓库
1. git log 查到commit记录 2.复制 commit 后面的id 3. git reset --hard commit 后面的id // 回退 4. 强制更新远程仓库 git ...
android:加载PDF几种方法汇总对比
在安卓项目中,加载PDF文件,是一个比较常见的需求.又分为两大类, 1.加载网络PDF 2.加载一个本地静态PDF. 查阅资料,纵观网上在安卓中打开PDF的各种方式,大致可以分为以下几类, 1.直接使 ...
解决xshell连不上ubuntu虚拟机
分析原因:虚拟机未安装ssh服务(Xshell远程连接需通过ssh协议) 解决方法 ubuntu安装ssh服务器 sudo apt-get install openssh-server 后续有问题可 ...
【LeetCode二叉树#15】二叉搜索树中的众数（递归中序遍历）
二叉搜索树中的众数力扣题目链接(opens new window) 给定一个有相同值的二叉搜索树(BST),找出 BST 中的所有众数(出现频率最高的元素). 假定 BST 有如下定义: 结点左子树 ...
Vue3学习（二十）- 富文本插件wangeditor的使用
写在前面学习.写作.工作.生活,都跟心情有很大关系,甚至有时候我更喜欢一个人独处,戴上耳机coding的感觉. 明显现在的心情,比中午和上午好多了,心情超棒的,靠自己解决了两个问题: 新增的时候点击 ...
DataGear 制作支持全国、省、市三级数据钻取效果的地图数据可视化看板
通过DataGear的参数化数据集.图表联动和看板API功能,可以很方便地制作支持数据钻取效果的数据可视化看板. 首先,以上级地区名为参数,新建一个参数化SQL数据集: SELECT COL_NAME ...

KingbaseES V8R3集群运维案例之---备库状态‘down’修复

KingbaseES V8R3集群运维案例之---备库状态‘down’修复的更多相关文章

随机推荐

热门专题