有时,KingbaseES数据库需要在单个或最少的步骤中导入大量数据,这通常称为批量数据导入。其中数据源通常是一个或多个大文件,这个过程有时可能非常慢。

造成性能不佳的原因有很多:索引、触发器、外键、GUID 主键,甚至预写日志 (WAL) 都可能导致延迟。

在本文中,我们将介绍一些将数据大容量导入KingbaseES数据库的最佳实践技巧。但是,在某些情况下,这些可能都不是有效的解决方案。我们建议读者在应用之前考虑任何方法的优缺点。

技巧 1:将目标表更改为UNLOGGED模式

在KingbaseES数据库中,可以先将目标表更改为 UNLOG,然后在加载数据后更改回 LOGGED:

ALTER TABLE <target table> SET UNLOGGED;
<bulk data insert operations…>
ALTER TABLE <target table> LOGGED;

UNLOGGED模式可确保 KingbaseES不会将表写入操作发送到预写日志 (WAL),这可以使加载过程明显加快。但是,由于不记录操作,因此如果在加载期间服务器崩溃或不干净,则无法恢复数据。KingbaseES将在重新启动后自动截断任何未记录的表。

此外,未记录的表不会复制到备用服务器。在这种情况下,必须在加载之前删除现有复制,并在加载后重新创建现有复制。根据主节点中的数据量和备用节点的数量,重新创建复制的时间可能很长,并且高可用集群是无法接受的。

对于将数据大容量插入到UNLOGGED的表中,我们建议采用以下最佳做法:

  • 在将表和数据更改为未记录模式之前,对其进行备份
  • 在数据加载完成后,重新创建到备用服务器的任何复制
  • 对可以轻松重新填充的表,使用UNLOGGED的批量插入(例如,大型查找表或维度表)

技巧 2:删除和重新创建索引

现有索引可能会在批量数据插入期间导致显著延迟。这是因为在添加每行时,还必须更新相应的索引条目。

我们建议在开始大容量插入之前尽可能删除目标表中的索引,并在加载完成后重新创建索引。同样,在大型表上创建索引可能非常耗时,但通常比在加载期间更新索引更快。

DROP INDEX <index_name1>, <index_name2> … <index_name_n>;
<bulk data insert operations…>
CREATE INDEX <index_name> ON <target_table>(column1, …,column n);

在创建索引之前,暂时增加maintenance_work_mem配置参数可能是值得的。增加的工作内存可以帮助更快地创建索引。

另一个安全的选项是,使用现有数据和索引,在同一数据库中复制目标表。然后,可以使用大容量插入对这个新复制的表进行测试,适用于以下两种方案:删除并重新创建索引,或动态更新索引。然后,可以对实时表采用产生更好性能的方法。

技巧 3:删除并重新创建外键

与索引一样,外键约束也会影响大容量加载性能。这是因为必须检查每个插入行中的每个外键,是否存在相应的主键。在后台,KingbaseES使用触发器来执行检查。加载大量行时,必须为每行触发此触发器,这会增加开销。

除非受到业务规则的限制,否则我们建议从目标表中删除所有外键,将数据加载到单个事务中,然后在提交事务后,重新创建外键。

ALTER TABLE <target_table>
DROP CONSTRAINT <foreign_key_constraint>; BEGIN TRANSACTION
<bulk data insert operations…>
COMMIT; ALTER TABLE <target_table>
ADD CONSTRAINT <foreign key constraint>
FOREIGN KEY (<foreign_key_field>)
REFERENCES <parent_table>(<primary key field>)...;

同样,增加maintenance_work_mem配置参数可以提高重新创建外键约束的性能。

技巧 4:禁用触发器

INSERT 或 DELETE 触发器(如果加载过程还涉及从目标表中删除记录)可能会导致批量数据加载延迟。这是因为每个触发器都有需要检查的逻辑,并且每行之后需要立即完成的操作将被 INSERTed 或 DELETEEd 选中。

我们建议在大容量加载数据之前禁用目标表中的所有触发器,并在加载完成后启用它们。禁用 ALL 触发器,还包括强制执行外键约束检查的系统触发器。

ALTER TABLE <target table> DISABLE TRIGGER ALL ;
<bulk data insert operations…>
ALTER TABLE <target table> ENABLE TRIGGER ALL ;

技巧 5:使用 COPY 命令

我们建议使用 KingbaseES的COPY 命令,从一个或多个文件加载数据。COPY 针对大容量数据加载进行了优化。它比运行大量 INSERT 语句,甚至多值 INSERT 更有效。

COPY <target table> [( column1>, … , <column_n>)]
FROM '<file_name_and_path>'
WITH (<option1>, <option2>, … , <option_n>)

使用 COPY 的其他好处包括:

  • 支持文本和二进制文件导入
  • 本质上是事务性的
  • 允许指定输入文件的结构
  • 可以使用 WHERE 子句有条件地加载数据

技巧 6:使用多值 INSERT

对于批量数据加载,运行数千或数十万个 INSERT 语句可能是一个糟糕的选择。这是因为每个单独的 INSERT 命令都必须由查询优化器解析和准备,完成所有约束检查,作为单独的事务运行,并记录在 WAL 中。使用多值单个 INSERT 语句可以节省此开销。

INSERT INTO <target_table> (<column1>, <column2>, …, <column_n>)
VALUES
(<value a>, <value b>, …, <value x>),
(<value 1>, <value 2>, …, <value n>),
(<value A>, <value B>, …, <value Z>),
(<value i>, <value ii>, …, <value L>),
...

多值 INSERT 性能受现有索引的影响。建议在运行命令之前删除索引,并在之后重新创建索引。

另一个需要注意的领域是KingbaseES可用于运行多值INSERT的内存量。运行多值 INSERT 时,RAM 中必须容纳大量输入值,除非有足够的可用内存,否则该过程可能会失败。

我们建议将effective_cache_size参数设置为系统内存的50%,并将shared_buffer参数设置为计算机总 RAM 的 25%。此外,为了安全起见,它运行一系列多值 INSERT,每个语句的值为 1000 行。

技巧 7:运行分析

这与提高批量数据导入性能无关,但我们强烈建议在大容量导入后,立即对目标表运行 ANALYZE 命令。大量新行将显著扭曲列中的数据分布,并导致表上的任何现有统计信息都已过期。当查询优化器使用陈旧的统计信息时,查询性能可能非常差,令人无法接受。运行 ANALYZE 命令将确保更新任何现有统计信息。

最后的思考

对于数据库应用程序,批量数据导入可能不会每天发生,但查询运行时会对性能产生影响。这就是为什么有必要尽可能缩短加载时间的原因。为了最大限度地减少任何意外,DBA可以做的一件事是在具有类似服务器规范和KingbaseES配置的开发或过渡环境中测试负载优化。每个数据加载方案都是不同的,最好尝试每种方法并找到有效的方法。

KingbaseES批量数据加载的实践技巧的更多相关文章

  1. 使用 ExecuteMultiple 提高批量数据加载的性能

    您可以使用 ExecuteMultipleRequest 消息在 Microsoft Dynamics CRM Online 2016 Update 和 Microsoft Dynamics CRM ...

  2. [源码解析] PyTorch 分布式(2) --- 数据加载之DataLoader

    [源码解析] PyTorch 分布式(2) --- 数据加载之DataLoader 目录 [源码解析] PyTorch 分布式(2) --- 数据加载之DataLoader 0x00 摘要 0x01 ...

  3. iOS App中数据加载的6种方式

    我们看到的APP,往往有着华丽的启动界面,然后就是漫长的数据加载等待,甚至在无网络的时候,整个处于不可用状态.那么我们怎么处理好界面交互中的加载设计,保证体验无缝衔接,保证用户没有漫长的等待感,而可以 ...

  4. APP中数据加载的6种方式-b

    我们看到的APP,往往有着华丽的启动界面,然后就是漫长的数据加载等待,甚至在无网络的时候,整个处于不可用状态.那么我们怎么处理好界面交互中的加载设计,保证体验无缝衔接,保证用户没有漫长的等待感,而可以 ...

  5. hibernate框架学习第六天:QBC、分页查询、投影、数据加载策略、二级缓存

    QBC查询 1.简单查询 Criteria c = s.createCriteria(TeacherModel.class); 2.获取查询结果 多条:list 单挑:uniqueResult 3.分 ...

  6. JQuery 之 在数据加载完成后才自动执行函数

    数据加载完成执行: $(window).load(function(){ ... }); 进入页就执行,不论等数据是否加载完成: $(document).ready(function(){ ... } ...

  7. GreenPlum数据加载

    1. copy命令 对于数据加载,GreenPlum数据库提供copy工具,copy工具源于PostgreSQL数据库,copy命令支持文件与表之间的数据加载和表对文件的数据卸载.使用copy命令进行 ...

  8. PyTorch 数据集类 和 数据加载类 的一些尝试

    最近在学习PyTorch,  但是对里面的数据类和数据加载类比较迷糊,可能是封装的太好大部分情况下是不需要有什么自己的操作的,不过偶然遇到一些自己导入的数据时就会遇到一些问题,因此自己对此做了一些小实 ...

  9. App6种常见的数据加载设计

    App6种常见的数据加载设计 设计师在进行APP设计的设计时,往往会更加专注于界面长什么样,界面和界面之间怎么跳转,给予用户什么样的操作反馈,却偏偏特别容易忽略掉一个比较重要的环节,就是APP数据加载 ...

随机推荐

  1. Vue回炉重造之如何使用props、emit实现自定义双向绑定

    下面我将使用Vue自带的属性实现简单的双向绑定. 下面的例子就是利用了父组件传给子组件(在子组件定义props属性,在父组件的子组件上绑定属性),子组件传给父组件(在子组件使用$emit()属性定义一 ...

  2. 动态树 — Euler_Tour_Tree

    一般提到动态树,我们会不约而同的想到 LCT,这算是比较通用,实用,能力较为广泛的一种写法了.当然,掌握 LCT 就需要熟悉掌握 Splay 和各种操作和知识.ETT(中文常用称呼:欧拉游览树)是一种 ...

  3. HashSet 添加/遍历元素源码分析

    HashSet 类图 HashSet 简单说明 HashSet 实现了 Set 接口 HashSet 底层实际上是由 HashMap 实现的 public HashSet() { map = new ...

  4. P1494 小Z的袜子 莫队

    题干 就是将$add$和$del$函数里的$ans$变化变成组合数嘛, 先预处理出$x$只相同袜子一共有$f[x] = 1+2+...+$$(x-1)$种组合, 要注意,由于$f[x]$是一直加到$x ...

  5. NC16884 [NOI2001]食物链

    题目链接 题目 题目描述 动物王国中有三类动物A,B,C,这三类动物的食物链构成了有趣的环形.A吃B,B吃C,C吃A. 现有N个动物,以1-N编号.每个动物都是A,B,C中的一种,但是我们并不知道它到 ...

  6. ESP分区重建,解决各种引导问题

    电脑装了双系统,win7和win10,每次重启都进入不同系统,郁闷至极,索性把不常用的Win7盘格式化,但依旧解决不了问题.所以有了以下方法. 1.进PE删除ESP分区(先备份). 2.新建ESP分区 ...

  7. Excel用户如何打破内卷?只需要一个新软件,就能突破excel天花板

    还在死磕Excel吗?到底值不值得? 你看看,现在有多少excel培训班和培训课?网上各种EXCEL使用技巧教程也是满天飞.很多人为了提升Excel技能,不遗余力学习各种函数用法.VBA用法等等,最近 ...

  8. 老子云携手福昕鲲鹏,首次实现3D OFD三维版式文档的重大突破

    你见过能动起来的文档吗? 这可不是动图,也不是视频,而是可以直接自由交互3D模型的3D OFD文档! OFD可能有人不熟悉,它其实是国产"PDF",3D OFD则突破了以往文字.图 ...

  9. CF Round #805 (Div. 3) 题解

    A 直接模拟即可,注意 \(10^k\) 的情况(罚时!罚时!罚时!). A Code using namespace std; typedef long long ll; typedef pair& ...

  10. 清北学堂 2020 国庆J2考前综合强化 Day6

    目录 1. 题目 T1 双色球计数 题目描述 Sol 炼金术 题目描述 Sol T3 地铁大亨 题目描述 Sol T4 结束的派对 题目描述 Sol 算法 - 分治 1. 分治 2. 二分 3. 倍增 ...