KingbaseES V8R6运维案例之---普通表toast表故障修复

案例说明：

数据库在日常的维护过程中，在执行表查询（select），如下图所示，出现“could not read block 0 in file "base/16385/16408": read only 512 of 8192 bytes”故障，通过对“base/16385/16408”的定位，故障和toast表有关。本案例复现了以上故障，并提供了解决方案。

适用版本：

KingbaseES V8R6

一、案例复现

TOAST存储的表不能单独创建，只有当普通表包含了main,extended或external存储格式的字段时，系统会自动创建一个和普通表关联的TOAST表。当一行记录(tuple)存储的(包括压缩后的大小)大小超过TOAST_TUPLE_THRESHOLD(默认2K)时，会存储到TOAST表。

1、创建测试表及插入数据

# 创建测试表

prod=# create table test1(id int primary key ,v_name varchar);

CREATE TABLE

#查看表结构

prod=# \d+ test1

                                   Table "public.test1"

 Column |  Type   | Collation | Nullable | Default | Storage  | Stats target | Description

--------+---------+-----------+----------+---------+----------+--------------+-------------

 id     | integer |           | not null |         | plain    |              |

 v_name | varchar |           |          |         | extended |              |

Indexes:

    "test1_pkey" PRIMARY KEY, btree (id)

Access method: heap

# 插入大字段数据

prod=# insert into test1 select generate_series(1,100),'a';

INSERT 0 100

prod=# insert into test1 select generate_series(101,200),repeat(md5(random()::text),8000);

INSERT 0 100

prod=# insert into test1 select generate_series(201,300),'b';

INSERT 0 100

---当字段的storage标识为“extended“时，如果字段值默认超过2k，会对字段执行压缩，如果压缩后的size

仍大于2k，则将字段值存入toast表，在源表建立到toast表的指针。

2、查看toast表信息

#获取源表对应的toast表OID

prod=# select oid,reltoastrelid,relname from pg_class where relname='test1';

  oid  | reltoastrelid | relname

-------+---------------+---------

 16405 |         16408 | test1

(1 row)

#获取toast表名称

prod=# select oid,relname from pg_class where oid=16408;

  oid  |    relname

-------+----------------

 16408 | pg_toast_16405

(1 row)

#获取toast表数据文件存储路径

prod=# select pg_relation_filepath('pg_toast.pg_toast_16405');

 pg_relation_filepath

----------------------

 base/16385/16408

(1 row)

prod=# select count(*) from  pg_toast.pg_toast_16405;

 count

-------

   200

(1 row)

prod=# \d+  pg_toast.pg_toast_16405;

TOAST table "pg_toast.pg_toast_16405"

   Column   |  Type   | Storage

------------+---------+---------

 chunk_id   | oid     | plain

 chunk_seq  | integer | plain

 chunk_data | bytea   | plain

二、模拟toast表数据文件故障

#模拟toast表数据文件故障

[kingbase@node102 ~]$ dd if=/dev/zero of=/data/kingbase/v8r6_c6/data/base/16385/16408 bs=512 count=1

1+0 records in

1+0 records out

512 bytes (512 B) copied, 0.000188319 s, 2.7 MB/s

[kingbase@node102 ~]$ ls -lh /data/kingbase/v8r6_c6/data/base/16385/16408

-rw------- 1 kingbase kingbase 512 Nov  3 11:21 /data/kingbase/v8r6_c6/data/base/16385/16408

#重启数据库并清理缓存

[kingbase@node102 bin]$ ./sys_ctl stop -D /data/kingbase/v8r6_c6/data

waiting for server to shut down.... done

server stopped

[root@node102 ~]#  echo 3 > /proc/sys/vm/drop_caches

[kingbase@node102 bin]$ ./sys_ctl start -D /data/kingbase/v8r6_c6/data

waiting for server to start....2022-11-03 11:22:12.466 CST [15429] LOG:  sepapower extension initialized

.......

server started

#查询源表数据出现块故障

prod=# select * from test1;

ERROR:  could not read block 0 in file "base/16385/16408": read only 512 of 8192 bytes

# toast表数据为空

prod=# select * from  pg_toast.pg_toast_16405 limit 2;

 chunk_id | chunk_seq | chunk_data

----------+-----------+------------

(0 rows)

# 可以对源表做行统计查询

prod=# select count(*) from test1;

 count

-------

   300

(1 row)

三、解决toast表故障步骤

1、尝试重建索引并对表分析

# 尝试重建索引

prod=# reindex table test1;

REINDEX

prod=# reindex table pg_toast.pg_toast_16405;

REINDEX

# 执行表分析

prod=# vacuum analyze test1;

VACUUM

# 源表查询依然出现故障

prod=# select * from test1;

ERROR:  missing chunk number 0 for toast value 16413 in pg_toast_16405

2、定位源表发生故障的记录

# 尝试通过手工方式定位

prod=#  select * from test1 order by id limit 1 offset 1;

 id | v_name

----+--------

  2 | a

(1 row)

prod=#  select * from test1 order by id limit 1 offset 100;

ERROR:  missing chunk number 0 for toast value 16413 in pg_toast_16405

prod=#  select * from test1 order by id limit 100 offset 0;

 id  | v_name

-----+--------

   1 | a

   2 | a

   3 | a

   4 | a

   5 | a

   6 | a

   7 | a

   8 | a

   9 | a

........

prod=#  select * from test1 order by id limit 100 offset 1;

ERROR:  missing chunk number 0 for toast value 16413 in pg_toast_16405

#通过脚本定位故障记录

[kingbase@node102 ~]$ cat chk_toast.sh

#!/bin/bash

CNT=300         #300是表的总行数

CMD_DIR='/opt/Kingbase/ES/V8R6_C6/Server/bin'

PORT=54325

for ((i=1; i<=CNT;i++))

do

  $CMD_DIR/ksql -U system  prod -p $PORT  -c "SELECT * FROM test1 order by id  LIMIT 1 offset $i" >/dev/null || echo $i

done

# 执行脚本

[kingbase@node102 ~]$ sh chk_toast.sh

ERROR:  missing chunk number 0 for toast value 16413 in pg_toast_16405

100

ERROR:  missing chunk number 0 for toast value 16414 in pg_toast_16405

101

ERROR:  missing chunk number 0 for toast value 16415 in pg_toast_16405

102

........

ERROR:  missing chunk number 0 for toast value 16511 in pg_toast_16405

198

ERROR:  missing chunk number 0 for toast value 16512 in pg_toast_16405

199

---如上所示，从第100行开始到199行，字段v_name的字段值存储在toast表，因toast表故障，因此无法从源表访问。

3、清理源表中故障记录

# 确定源表需清理的记录

prod=#  select * from test1 order by id limit 1 offset 99;

 id  | v_name

-----+--------

 100 | a

(1 row)

prod=#  select * from test1 order by id limit 1 offset 199;

ERROR:  missing chunk number 0 for toast value 16512 in pg_toast_16405

prod=#  select * from test1 order by id limit 1 offset 200;

 id  | v_name

-----+--------

 201 | b

(1 row)

#删除源表中故障记录

prod=# delete from test1 where id >100 and id <201;

DELETE 100

#清理故障记录后源表可以正常查询

prod=# select * from test1;

 id  | v_name

-----+--------

   1 | a

   2 | a

   3 | a

   4 | a

   5 | a

   6 | a

   7 | a

   8 | a

   9 | a

  10 | a

  11 | a

  12 | a

  13 | a

  14 | a

.......

prod=# select count(*) from test1;

 count

-------

   200

(1 row)

prod=# select * from pg_toast.pg_toast_16405;

 chunk_id | chunk_seq | chunk_data

----------+-----------+------------

(0 rows)

#源表插入数据

prod=# insert into test1 select generate_series(101,200),repeat(md5(random()::text),8000);

INSERT 0 100

#toast表生成新的记录

prod=# select count(*) from pg_toast.pg_toast_16405;

 count

-------

   200

(1 row)

prod=# insert into test1 select generate_series(301,400),repeat(md5(random()::text),8000);

INSERT 0 100

prod=# select count(*) from pg_toast.pg_toast_16405;

 count

-------

   400

(1 row)

prod=# select count(distinct chunk_id) from pg_toast.pg_toast_16405 ;

 count

-------

   200

(1 row)

---从以上所示，toast表故障问题已经解决。

四、总结

因toast表坏块问题，将导致源表不可访问，如果有有效的备份，可以通过备份来进行故障的恢复；如果没有有效的备份，可以通过对源表故障记录的清理，完成toast表的恢复。

KingbaseES V8R6运维案例之---普通表toast表故障修复的更多相关文章

KingbaseES V8R6备份恢复案例之---自定义表空间指定恢复目录数据恢复
案例说明: KingbaseES V8R6在通过sys_rman执行物理备份恢复时,可以通过参数'--kb1-path',指定恢复的数据(data)目录,但如果原备份中包含自定义表空间时,需要建立表空 ...
KingbaseES V8R3集群运维案例之---用户自定义表空间管理
案例说明: KingbaseES 数据库支持用户自定义表空间的创建,并建议表空间的文件存储路径配置到数据库的data目录之外.本案例复现了,当用户自定义表空间存储路径配置到data下时,出现的故障问 ...
KingbaseES V8R6集群管理运维案例之---repmgr standby switchover故障
案例说明: 在KingbaseES V8R6集群备库执行"repmgr standby switchover"时,切换失败,并且在执行过程中,伴随着"repmr stan ...
KingbaseES V8R6集群运维案例之---repmgr standby promote应用案例
案例说明: 在容灾环境中,跨区域部署的异地备节点不会自主提升为主节点,在主节点发生故障或者人为需要切换时需要手动执行切换操作.若主节点已经失效,希望将异地备机提升为主节点. $bin/repmgr s ...
运维案例 | Exchange2010数据库损坏的紧急修复思路
关注嘉为科技,获取运维新知 Exchange后端数据库故障,一般都会是比较严重的紧急故障,因为这会直接影响到大面积用户的正常使用,而且涉及到用户数据.一旦遇到这种级别的故障,管理员往往都是在非常紧 ...
KingbaseES V8R6备份恢复案例之---同一数据库创建不同stanza备份
案例说明: 在生产环境,有的应用需要调用数据库的sys_rman做备份,为了区分数据库自身的sys_rman备份和应用的备份,可以使用不同的stanza name创建备份.本案例介绍了,如何在King ...
KingbaseES V8R6备份恢复案例之--删除test数据库后sys_backup.sh备份
案例说明: KingbaseES V8R6通过sys_backup.sh执行物理备份,默认sys_backup.sh执行备份初始化时,需要连接test数据库进行身份的认证:在一些生产环境为了安全需求, ...
KingbaseES V8R6备份恢复案例之---手工清理冗余历史备份
案例说明: 对于KingbaseES V8R6的通过sys_rman执行的物理历史备份,可以在执行备份时,备份的保留(retention)策略自动清理.不能通过手工删除备份,可以通过expire参数手 ...
python运维开发(十九)----Django后台表单验证、session、cookie、model操作
内容目录: Django后台表单验证 CSRF加密传输 session.cookie model数据库操作 Django后台Form表单验证 Django中Form一般有2种功能: 1.用于做用户提交 ...
KingbaseES V8R3集群运维案例之---主库系统down failover切换过程分析
案例说明: KingbaseES V8R3集群failover时两个cluster都会触发,但只有一个cluster会调用脚本去执行真正的切换流程,另一个有对应的打印,但不会调用脚本,只是走相关的 ...

随机推荐

Swoole从入门到入土(21)——毫秒定时器
Swoole提供了毫秒精度的定时器,所有操作都是内存操作,无额外的IO开销. 下面让我们一起详细了解每个函数的作用: 1) 函数tick:设置一个间隔时钟定时器,这个定时器会持续触发 Swoole\T ...
用ELK分析每天4亿多条腾讯云MySQL审计日志(1)--解决过程
前言: 该文章将会介绍以下: 1,快速分析SQL日志的几种方法 2,使用mysql的全文索引快速分析少量SQL审计 3,准确快速分析4亿多条审计SQL日志(过程和最终解决方案) 公司核心库拆 ...
ORA-14550错误解决方法
工作中修改临时表,报错: ---------------------------------- 以SYSDBA身份登录,执行以下语句: select a.sid, a.serial#, ...
HTML+CSS设计一个朴实无华的登录页
说明之前一直偏重于后端技术研究,最近设计网站感觉前端太菜,遂集中看了下CSS的内容.后续我会发表一些前端实战的一些例子,给自己记录的同时希望也能分享给大家. 实现效果主要知识点 DIV屏幕垂直居中 ...
跨越千年医学对话：用AI技术解锁中医古籍知识，构建能够精准问答的智能语言模型，成就专业级古籍解读助手（LLAMA）
跨越千年医学对话:用AI技术解锁中医古籍知识,构建能够精准问答的智能语言模型,成就专业级古籍解读助手(LLAMA) 介绍:首先在 Ziya-LLaMA-13B-V1基线模型的基础上加入中医教材.中医各 ...
npm代理 -- 解决在公司内网如何装包的问题
什么是Npm代理 npm代理指的是npm包管理器在使用时通过代理访问npm服务器获取依赖包的过程.在某些情况下,我们需要npm走代理才能访问到npm服务器,否则会出现timeout的错误.那下面我们就 ...
统信UOS系统开发笔记（一）：国产统信UOS系统搭建开发环境之虚拟机安装
前言开发国产应用,需要使用到统信UOS系统,之前已经开发过国产银河麒麟V4.V7和V10版本了,本次新项目使用到统信UOS,记录UOS虚拟机安装流程,方便快捷进行相关开发工作. 提前准备 V ...
NebulaGraph is nothing without you ｜社区 2023 年度人物合集
在去年的年度人物回顾中,我们看到了形形色色的人们,他们当中有帮 NebulaGraph 捉 bug 的小能手,也有通过用回复来解答他人疑惑的启蒙者-在今年(2023 年),我们这个整点不一样的,将镜 ...
Java 多线程----- 解决线程安全问题的方式三：Lock锁 --------jdk 5.0 新增
1 package bytezero.deadlock; 2 3 import java.util.concurrent.locks.ReentrantLock; 4 5 /** 6 * 解决线程安全 ...
CefSharp 开发触屏终端遇到的问题记录
一.背景最开始准备使用的 Chromely 做一个终端机项目,本来以为挺顺利的一个事情折腾了两天半.由于无法直接控制窗体的属性,最后还是切换到 .NET Framework 4.8 + CefSha ...

KingbaseES V8R6运维案例之---普通表toast表故障修复

KingbaseES V8R6运维案例之---普通表toast表故障修复的更多相关文章

随机推荐

热门专题