KingbaseES V8R3 shared_buffer占用过多导致实例崩溃

背景

有这样一个案例。客户备库意外宕机，从集群日志只看出发生了主备切换，备库一直持续恢复备库没有成功，从数据库日志看到如下报错：

terminating connection because of crash of another server process

DETAIL: The kingbase has commanded this server process to roll back the current transaction and exit, because another server process exited abnormally and possibly corrupted shared memory.

根据报错提示，怀疑当时并发太高，或者业务繁忙导致shared_buffer不够用，进而导致数据库宕机。由于V8R3版本数据库没有办法收集kwr报告，所以不容易定位这个判断。

分析

现在模拟实验：

测试环境：

[](javascript:void(0)

shared_buffer 设置成16MB

max_wal_size  设置成32MB

create table test01(id integer, val char(1024)); 

insert into test01 values(generate_series(1,2888600),repeat( chr(int4(random()*26)+65),1024));

TEST=# create table test01(id integer, val char(1024));

CREATE TABLE

TEST=# insert into test01 values(generate_series(1,2888600),repeat( chr(int4(random()*26)+65),1024));

等待......

server closed the connection unexpectedly

This probably means the server terminated abnormally

before or while processing the request.

[](javascript:void(0)

ps命令看到了每个process，其中process13674占用了大量内存

数据库日志警告发生corrupted shared memory 。实例崩溃，发生重启。

在这之前触发了大量检查点，这也符合预期，因为已经把max_wal_size调的足够小。需要不断写出page以保证足够的shared_buffer满足insert。

数据库也给出了合理建议增加参数“max_wal_size”大小。

[](javascript:void(0)

2022-05-25 15:38:04 CST HINT:  Consider increasing the configuration parameter "max_wal_size".

2022-05-25 15:38:05 CST LOG:  checkpoints are occurring too frequently (1 second apart)

2022-05-25 15:38:05 CST HINT:  Consider increasing the configuration parameter "max_wal_size".

2022-05-25 15:38:05 CST LOG:  checkpoints are occurring too frequently (0 seconds apart)

2022-05-25 15:38:05 CST HINT:  Consider increasing the configuration parameter "max_wal_size".

2022-05-25 15:38:06 CST LOG:  checkpoints are occurring too frequently (1 second apart)

2022-05-25 15:38:06 CST HINT:  Consider increasing the configuration parameter "max_wal_size".

2022-05-25 15:38:07 CST LOG:  checkpoints are occurring too frequently (1 second apart)

2022-05-25 15:38:07 CST HINT:  Consider increasing the configuration parameter "max_wal_size".

2022-05-25 15:38:07 CST LOG:  checkpoints are occurring too frequently (0 seconds apart)

2022-05-25 15:38:07 CST HINT:  Consider increasing the configuration parameter "max_wal_size".

2022-05-25 15:38:07 CST LOG:  checkpoints are occurring too frequently (0 seconds apart)

2022-05-25 15:38:07 CST HINT:  Consider increasing the configuration parameter "max_wal_size".

2022-05-25 15:38:09 CST LOG:  checkpoints are occurring too frequently (2 seconds apart)

2022-05-25 15:38:09 CST HINT:  Consider increasing the configuration parameter "max_wal_size".

2022-05-25 15:38:09 CST LOG:  checkpoints are occurring too frequently (0 seconds apart)

2022-05-25 15:38:09 CST HINT:  Consider increasing the configuration parameter "max_wal_size".

2022-05-25 15:38:10 CST LOG:  checkpoints are occurring too frequently (1 second apart)

2022-05-25 15:38:10 CST HINT:  Consider increasing the configuration parameter "max_wal_size".

2022-05-25 15:38:12 CST LOG:  checkpoints are occurring too frequently (2 seconds apart)

2022-05-25 15:38:12 CST HINT:  Consider increasing the configuration parameter "max_wal_size".

2022-05-25 15:38:12 CST LOG:  checkpoints are occurring too frequently (0 seconds apart)

2022-05-25 15:38:12 CST HINT:  Consider increasing the configuration parameter "max_wal_size".

2022-05-25 15:38:12 CST LOG:  checkpoints are occurring too frequently (0 seconds apart)

2022-05-25 15:38:12 CST HINT:  Consider increasing the configuration parameter "max_wal_size".

2022-05-25 15:38:13 CST LOG:  checkpoints are occurring too frequently (1 second apart)

2022-05-25 15:38:13 CST HINT:  Consider increasing the configuration parameter "max_wal_size".

2022-05-25 15:38:14 CST LOG:  checkpoints are occurring too frequently (1 second apart)

2022-05-25 15:38:14 CST HINT:  Consider increasing the configuration parameter "max_wal_size".

2022-05-25 15:38:15 CST LOG:  checkpoints are occurring too frequently (1 second apart)

2022-05-25 15:38:15 CST HINT:  Consider increasing the configuration parameter "max_wal_size".

2022-05-25 15:38:15 CST LOG:  checkpoints are occurring too frequently (0 seconds apart)

2022-05-25 15:38:15 CST HINT:  Consider increasing the configuration parameter "max_wal_size".

2022-05-25 15:38:15 CST LOG:  checkpoints are occurring too frequently (0 seconds apart)

2022-05-25 15:38:15 CST HINT:  Consider increasing the configuration parameter "max_wal_size".

2022-05-25 15:38:16 CST LOG:  checkpoints are occurring too frequently (1 second apart)

2022-05-25 15:38:16 CST HINT:  Consider increasing the configuration parameter "max_wal_size".

2022-05-25 15:38:17 CST LOG:  checkpoints are occurring too frequently (1 second apart)

2022-05-25 15:38:17 CST HINT:  Consider increasing the configuration parameter "max_wal_size".

2022-05-25 15:38:17 CST LOG:  checkpoints are occurring too frequently (0 seconds apart)

2022-05-25 15:38:17 CST HINT:  Consider increasing the configuration parameter "max_wal_size".

2022-05-25 15:38:18 CST LOG:  checkpoints are occurring too frequently (0 seconds apart)

2022-05-25 15:38:18 CST HINT:  Consider increasing the configuration parameter "max_wal_size".

2022-05-25 15:38:18 CST LOG:  checkpoints are occurring too frequently (1 second apart)

2022-05-25 15:38:18 CST HINT:  Consider increasing the configuration parameter "max_wal_size".

2022-05-25 15:38:18 CST LOG:  checkpoints are occurring too frequently (0 seconds apart)

2022-05-25 15:38:18 CST HINT:  Consider increasing the configuration parameter "max_wal_size".

2022-05-25 15:38:19 CST LOG:  server process (PID 13674) was terminated by signal 9: Killed

2022-05-25 15:38:19 CST DETAIL:  Failed process was running: insert into test01 values(generate_series(1,2888600),repeat( chr(int4(random()*26)+65),1024));

2022-05-25 15:38:19 CST LOG:  terminating any other active server processes

2022-05-25 15:38:19 CST WARNING:  terminating connection because of crash of another server process

2022-05-25 15:38:19 CST DETAIL:  The kingbase has commanded this server process to roll back the current transaction and exit, because another server process exited abnormally and possibly corrupted shared memory.

2022-05-25 15:38:19 CST HINT:  In a moment you should be able to reconnect to the database and repeat your command.

2022-05-25 15:38:19 CST LOG:  all server processes terminated; reinitializing

2022-05-25 15:38:19 CST LOG:  database system was interrupted; last known up at 2022-05-25 15:38:19 CST

2022-05-25 15:38:19 CST LOG:  database system was not properly shut down; automatic recovery in progress

2022-05-25 15:38:19 CST LOG:  redo starts at 0/8F050338

2022-05-25 15:38:19 CST LOG:  redo wal segment count 1

2022-05-25 15:38:19 CST LOG:  invalid record length at 0/8FA6C178: wanted 24, got 0

2022-05-25 15:38:19 CST LOG:  complete: 1/1

2022-05-25 15:38:19 CST LOG:  redo done at 0/8FA6C108

2022-05-25 15:38:19 CST LOG:  MultiXact member wraparound protections are now enabled

2022-05-25 15:38:19 CST LOG:  redo done at 0/8FA6C108

2022-05-25 15:38:19 CST LOG:  MultiXact member wraparound protections are now enabled

2022-05-25 15:38:19 CST LOG:  database system is ready to accept connections

2022-05-25 15:38:19 CST LOG:  autovacuum launcher started

2022-05-25 15:38:19 CST LOG:  starting syslogical supervisor

2022-05-25 15:38:19 CST LOG:  starting syslogical database manager for database TEST

2022-05-25 15:38:19 CST LOG:  manager worker [13929] at slot 0 generation 1 detaching cleanly

2022-05-25 15:38:20 CST LOG:  starting syslogical database manager for database TEMPLATE1

2022-05-25 15:38:20 CST LOG:  manager worker [13930] at slot 0 generation 2 detaching cleanly

2022-05-25 15:38:20 CST LOG:  starting syslogical database manager for database TEMPLATE2

2022-05-25 15:38:20 CST LOG:  manager worker [13932] at slot 0 generation 3 detaching cleanly

2022-05-25 15:38:20 CST LOG:  starting syslogical database manager for database SAMPLES

2022-05-25 15:38:20 CST LOG:  manager worker [13935] at slot 0 generation 4 detaching cleanly

2022-05-25 15:38:20 CST LOG:  starting syslogical database manager for database SECURITY

2022-05-25 15:38:20 CST LOG:  manager worker [13940] at slot 0 generation 5 detaching cleanly

[](javascript:void(0)

再查看那个占用内存高的进程已经被干掉。

需要说明的是同样的环境，我在KingbaseV8R6上并没有复现，也没有发生宕机。能看到插入时间比较慢，看到进程占用内存没有如此之高。

总结：

由于突然性大并发导致数据库资源使用上限是常有之事，我们尽量和业务协商保持业务稳定，如有新上业务要提前评估内存，cpu，io使用情况后做决定。是否有可用内存以供增加，不然很容易像以上例子导致数据库崩溃。

尽量升级到高版本规避此问题。或在系统级限定资源消费上限。

KingbaseES V8R3 shared_buffer占用过多导致实例崩溃的更多相关文章

.Net Core项目在Docker上运行，内存占用过多导致pods重启的问题
默认情况下,.NET Core应用的内存回收模式是Server模式,这种情况下,内存占用和服务器核心数量有关,一半占用量比较大. 我们的应用目前吞吐量都不大,可以采用Workstation模式,这种模 ...
KingbaseES V8R3集群管理维护案例之---集群迁移单实例架构
案例说明: 在生产中,需要将KingbaseES V8R3集群转换为单实例架构,可以采用以下方式快速完成集群架构的迁移. 适用版本: KingbaseES V8R3 当前数据库版本: TEST=# s ...
最常见的5个导致 RAC 实例崩溃的问题
适用于: OracleDatabase - Enterprise Edition - 版本11.2.0.1 和更高版本本文档所含信息适用于所有平台用途本文档的目的是总结可能导致 RAC 实例崩溃的 ...
转载：Linux服务器Cache占用过多内存导致系统内存不足最终java应用程序崩溃解决方案
原文链接: https://blog.csdn.net/u014740338/article/details/66975550 问题描述 Linux内存使用量超过阈值,使得Java应用程序无可用内存, ...
KingbaseES V8R3 备份恢复案例之--单实例环境sys_rman脚本备份案例
案例说明: sys_rman是KingbaseES数据库的物理备份工具,支持数据库的全备和增量备份,由于sys_rman工具使用需要配置多个参数,对于一般用户使用不是很方便.为方便用户在Kingbas ...
Linux下php-fpm进程过多导致内存耗尽问题
这篇文章主要介绍了解决Linux下php-fpm进程过多导致内存耗尽问题,需要的朋友可以参考下最近,发现个人博客的Linux服务器,数据库服务经常挂掉,导致需要重启,才能正常访问,极其恶心,于是 ...
导致实例逐出的五大问题 (文档 ID 1526186.1)
适用于: Oracle Database - Enterprise Edition - 版本 10.2.0.1 到 11.2.0.3 [发行版 10.2 到 11.2]本文档所含信息适用于所有平台用 ...
RDS数据库磁盘满导致实例锁定
问题描述: 阿里云RDS空间不足,进行报警.收到报警后.对数据库中不重要的数据备份后执行delete删除操作.执行成功后发现数据删掉了.但是数据库的空间并没有释放.数据占用空间反而越来越大,最后RDS ...
buff/cache内存占用过多
通过free -m 查看到 buff/cache的值比较大,导致可使用的内存有120M左右了通过下面的命令,清除缓存 echo 1 > /proc/sys/vm/drop_caches ech ...

随机推荐

关于个人全栈项目【臻美Chat】遇到的BUG以及解决方法
项目展示: 问题总结:一.单用户重复登录设备将每次输入的用户名与已经记录在后台的数组ar比较,如果存在则表示重复. // 生成数组var ar="";socket.on('arr ...
关于个人全栈项目【臻美IT】博客类出现的问题以及解决方法
每做一个项目,要记得写下心得哦,别偷懒啊!先上网址:https://www.maomin.club/ 这个项目属于博客类的,因为百度审核的问题就大体做了下,就当来练练手,里面文章链接的是CSDN的博客 ...
go Cobra命令行工具入门
简介 Github:https://github.com/spf13/cobra Star:26.5K Cobra是一个用Go语言实现的命令行工具.并且现在正在被很多项目使用,例如:Kuberne ...
07 MySQL_SQL语言分类
SQL语言分类 DDL Data Definition Language 数据定义语言包括: create , alter ,drop , truncate; 不支持事务 DML Data Mani ...
N皇后的位运算有感
N皇后很明显是一个NP-Hard问题,如果n足够大的话,在有限较短的时间内是很难得出答案的,但是注意到N皇后(笔者认为这类问题称为棋盘问题更为贴切),在n*n棋盘之上,每个点有且只有两种状态,这与电脑 ...
洛谷 P2073 送花 treap 无指针
看了那么多题解都没做对,结果今早上按自己的思路和模板做了做,然后过了. 平衡树裸题直接上代码: #include<bits/stdc++.h> #define rint register ...
python base64编码和解码图片
简介在实际项目中,可能需要对图片进行大小的压缩,较为常见的方法则是将图片转换为base64的编码,本文就python编码和解码图片做出一定的介绍. 代码 import base64 import o ...
Modbus转BACnet IP网关
BACnet是楼宇自动化和控制网络数据通信协议的缩写.它是为楼宇自动化网络开发的数据通信协议根据1999年底互联网上楼宇自动化网络的信息,全球已有数百家国际知名制造商支持BACnet,包括楼宇自 ...
mysql防SQL注入搜集
SQL注入例:脚本逻辑 $sql = "SELECT * FROM user WHERE userid = $_GET[userid] "; 案例1:SELECT * FROM ...
别梦依稀咒逝川，Ruby二十八年前|M1芯片Mac os系统配置Ruby(3.0.0) on Rails(6.1.1)开发环境(2021最新攻略)
原文转载自「刘悦的技术博客」https://v3u.cn/a_id_188 在每个开发者心里,都会有一门"最好"的语言,在这个世界的某个深处,在一些矫矫不群的人们心中,这门语言的名 ...

KingbaseES V8R3 shared_buffer占用过多导致实例崩溃

背景

分析

总结：

KingbaseES V8R3 shared_buffer占用过多导致实例崩溃的更多相关文章

随机推荐

热门专题