有时,KingbaseES数据库需要在单个或最少的步骤中导入大量数据,这通常称为批量数据导入。其中数据源通常是一个或多个大文件,这个过程有时可能非常慢。

造成性能不佳的原因有很多:索引、触发器、外键、GUID 主键,甚至预写日志 (WAL) 都可能导致延迟。

在本文中,我们将介绍一些将数据大容量导入KingbaseES数据库的最佳实践技巧。但是,在某些情况下,这些可能都不是有效的解决方案。我们建议读者在应用之前考虑任何方法的优缺点。

技巧 1:将目标表更改为UNLOGGED模式

在KingbaseES数据库中,可以先将目标表更改为 UNLOG,然后在加载数据后更改回 LOGGED:

ALTER TABLE <target table> SET UNLOGGED;
<bulk data insert operations…>
ALTER TABLE <target table> LOGGED;

UNLOGGED模式可确保 KingbaseES不会将表写入操作发送到预写日志 (WAL),这可以使加载过程明显加快。但是,由于不记录操作,因此如果在加载期间服务器崩溃或不干净,则无法恢复数据。KingbaseES将在重新启动后自动截断任何未记录的表。

此外,未记录的表不会复制到备用服务器。在这种情况下,必须在加载之前删除现有复制,并在加载后重新创建现有复制。根据主节点中的数据量和备用节点的数量,重新创建复制的时间可能很长,并且高可用集群是无法接受的。

对于将数据大容量插入到UNLOGGED的表中,我们建议采用以下最佳做法:

  • 在将表和数据更改为未记录模式之前,对其进行备份
  • 在数据加载完成后,重新创建到备用服务器的任何复制
  • 对可以轻松重新填充的表,使用UNLOGGED的批量插入(例如,大型查找表或维度表)

技巧 2:删除和重新创建索引

现有索引可能会在批量数据插入期间导致显著延迟。这是因为在添加每行时,还必须更新相应的索引条目。

我们建议在开始大容量插入之前尽可能删除目标表中的索引,并在加载完成后重新创建索引。同样,在大型表上创建索引可能非常耗时,但通常比在加载期间更新索引更快。

DROP INDEX <index_name1>, <index_name2> … <index_name_n>;
<bulk data insert operations…>
CREATE INDEX <index_name> ON <target_table>(column1, …,column n);

在创建索引之前,暂时增加maintenance_work_mem配置参数可能是值得的。增加的工作内存可以帮助更快地创建索引。

另一个安全的选项是,使用现有数据和索引,在同一数据库中复制目标表。然后,可以使用大容量插入对这个新复制的表进行测试,适用于以下两种方案:删除并重新创建索引,或动态更新索引。然后,可以对实时表采用产生更好性能的方法。

技巧 3:删除并重新创建外键

与索引一样,外键约束也会影响大容量加载性能。这是因为必须检查每个插入行中的每个外键,是否存在相应的主键。在后台,KingbaseES使用触发器来执行检查。加载大量行时,必须为每行触发此触发器,这会增加开销。

除非受到业务规则的限制,否则我们建议从目标表中删除所有外键,将数据加载到单个事务中,然后在提交事务后,重新创建外键。

ALTER TABLE <target_table>
DROP CONSTRAINT <foreign_key_constraint>; BEGIN TRANSACTION
<bulk data insert operations…>
COMMIT; ALTER TABLE <target_table>
ADD CONSTRAINT <foreign key constraint>
FOREIGN KEY (<foreign_key_field>)
REFERENCES <parent_table>(<primary key field>)...;

同样,增加maintenance_work_mem配置参数可以提高重新创建外键约束的性能。

技巧 4:禁用触发器

INSERT 或 DELETE 触发器(如果加载过程还涉及从目标表中删除记录)可能会导致批量数据加载延迟。这是因为每个触发器都有需要检查的逻辑,并且每行之后需要立即完成的操作将被 INSERTed 或 DELETEEd 选中。

我们建议在大容量加载数据之前禁用目标表中的所有触发器,并在加载完成后启用它们。禁用 ALL 触发器,还包括强制执行外键约束检查的系统触发器。

ALTER TABLE <target table> DISABLE TRIGGER ALL ;
<bulk data insert operations…>
ALTER TABLE <target table> ENABLE TRIGGER ALL ;

技巧 5:使用 COPY 命令

我们建议使用 KingbaseES的COPY 命令,从一个或多个文件加载数据。COPY 针对大容量数据加载进行了优化。它比运行大量 INSERT 语句,甚至多值 INSERT 更有效。

COPY <target table> [( column1>, … , <column_n>)]
FROM '<file_name_and_path>'
WITH (<option1>, <option2>, … , <option_n>)

使用 COPY 的其他好处包括:

  • 支持文本和二进制文件导入
  • 本质上是事务性的
  • 允许指定输入文件的结构
  • 可以使用 WHERE 子句有条件地加载数据

技巧 6:使用多值 INSERT

对于批量数据加载,运行数千或数十万个 INSERT 语句可能是一个糟糕的选择。这是因为每个单独的 INSERT 命令都必须由查询优化器解析和准备,完成所有约束检查,作为单独的事务运行,并记录在 WAL 中。使用多值单个 INSERT 语句可以节省此开销。

INSERT INTO <target_table> (<column1>, <column2>, …, <column_n>)
VALUES
(<value a>, <value b>, …, <value x>),
(<value 1>, <value 2>, …, <value n>),
(<value A>, <value B>, …, <value Z>),
(<value i>, <value ii>, …, <value L>),
...

多值 INSERT 性能受现有索引的影响。建议在运行命令之前删除索引,并在之后重新创建索引。

另一个需要注意的领域是KingbaseES可用于运行多值INSERT的内存量。运行多值 INSERT 时,RAM 中必须容纳大量输入值,除非有足够的可用内存,否则该过程可能会失败。

我们建议将effective_cache_size参数设置为系统内存的50%,并将shared_buffer参数设置为计算机总 RAM 的 25%。此外,为了安全起见,它运行一系列多值 INSERT,每个语句的值为 1000 行。

技巧 7:运行分析

这与提高批量数据导入性能无关,但我们强烈建议在大容量导入后,立即对目标表运行 ANALYZE 命令。大量新行将显著扭曲列中的数据分布,并导致表上的任何现有统计信息都已过期。当查询优化器使用陈旧的统计信息时,查询性能可能非常差,令人无法接受。运行 ANALYZE 命令将确保更新任何现有统计信息。

最后的思考

对于数据库应用程序,批量数据导入可能不会每天发生,但查询运行时会对性能产生影响。这就是为什么有必要尽可能缩短加载时间的原因。为了最大限度地减少任何意外,DBA可以做的一件事是在具有类似服务器规范和KingbaseES配置的开发或过渡环境中测试负载优化。每个数据加载方案都是不同的,最好尝试每种方法并找到有效的方法。

KingbaseES批量数据加载的实践技巧的更多相关文章

  1. 使用 ExecuteMultiple 提高批量数据加载的性能

    您可以使用 ExecuteMultipleRequest 消息在 Microsoft Dynamics CRM Online 2016 Update 和 Microsoft Dynamics CRM ...

  2. [源码解析] PyTorch 分布式(2) --- 数据加载之DataLoader

    [源码解析] PyTorch 分布式(2) --- 数据加载之DataLoader 目录 [源码解析] PyTorch 分布式(2) --- 数据加载之DataLoader 0x00 摘要 0x01 ...

  3. iOS App中数据加载的6种方式

    我们看到的APP,往往有着华丽的启动界面,然后就是漫长的数据加载等待,甚至在无网络的时候,整个处于不可用状态.那么我们怎么处理好界面交互中的加载设计,保证体验无缝衔接,保证用户没有漫长的等待感,而可以 ...

  4. APP中数据加载的6种方式-b

    我们看到的APP,往往有着华丽的启动界面,然后就是漫长的数据加载等待,甚至在无网络的时候,整个处于不可用状态.那么我们怎么处理好界面交互中的加载设计,保证体验无缝衔接,保证用户没有漫长的等待感,而可以 ...

  5. hibernate框架学习第六天:QBC、分页查询、投影、数据加载策略、二级缓存

    QBC查询 1.简单查询 Criteria c = s.createCriteria(TeacherModel.class); 2.获取查询结果 多条:list 单挑:uniqueResult 3.分 ...

  6. JQuery 之 在数据加载完成后才自动执行函数

    数据加载完成执行: $(window).load(function(){ ... }); 进入页就执行,不论等数据是否加载完成: $(document).ready(function(){ ... } ...

  7. GreenPlum数据加载

    1. copy命令 对于数据加载,GreenPlum数据库提供copy工具,copy工具源于PostgreSQL数据库,copy命令支持文件与表之间的数据加载和表对文件的数据卸载.使用copy命令进行 ...

  8. PyTorch 数据集类 和 数据加载类 的一些尝试

    最近在学习PyTorch,  但是对里面的数据类和数据加载类比较迷糊,可能是封装的太好大部分情况下是不需要有什么自己的操作的,不过偶然遇到一些自己导入的数据时就会遇到一些问题,因此自己对此做了一些小实 ...

  9. App6种常见的数据加载设计

    App6种常见的数据加载设计 设计师在进行APP设计的设计时,往往会更加专注于界面长什么样,界面和界面之间怎么跳转,给予用户什么样的操作反馈,却偏偏特别容易忽略掉一个比较重要的环节,就是APP数据加载 ...

随机推荐

  1. 【Pr】基础流程

    新建工程 1.打开Pr 2.点击"新建""项目" 3.在电脑磁盘上新建好项目想要存放的位置,比如Demo1,为了便于管理,我先新建了一个Demo文件夹,再在里边 ...

  2. 获取mybatis注解方式新增数据时非自增插入的主键

    场景:插入数据的时候,获取不到非自增的主键.原因:对象中没有主键的值,插入后主键才有值. 解决方案:使用 @SelectKey @SelectKey中: statement是要运行的SQL语句,即查询 ...

  3. 【黑马pink老师的H5/CSS课程】(二)标签与语法

    视频链接:P8~P29 黑马程序员pink老师前端入门教程,零基础必看的h5(html5)+css3+移动 参考链接: HTML 元素 1.HTML语法规范 1.1 基本语法概述 HTML 标签是由尖 ...

  4. js与java encodeURI 进行编码与解码

    JS escape()使用转义序列替换某些字符来对字符串进行编码  JavaScript 中国 编码后 JavaScript %u4E2D%u56FD unescape()对使用   encodeUR ...

  5. Restarting network (via systemctl): Job for network.service failed because the control process exited with error code. See "systemctl status network.service" and "journalctl -xe" for details.

    编辑完 ip地址,要重启网络 sudo service network restart 结果返回错误,错误如下 Restarting network (via systemctl): Job for ...

  6. CA证书、自颁发证书、自签名证书联系

    一.理论基础 ssl:secure socket layer(安全套接层协议)的缩写,通过此协议可以保证两个应用通信的可靠性和保密性.openssl:是ssl协议的实现.提供了对称加密算法.非对称加密 ...

  7. 使用uart串口接收模块接收信号,控制led灯闪烁

    功能描述: 使用遵循uart协议的接收模块接收控制信号,用来控制led的闪烁. 设计输入: 1.uart输入信号 2.时钟信号 3.复位信号 4.led信号 设计思路: 总体上:前面已经写了串口接收模 ...

  8. CSS面试总结

    文章首次发表:_时雨_CSDN 1. BFC:块级格式化上下文(重点关注) BFC基本概念:BFC是 CSS布局的一个概念,是一块独立的渲染区域(环境),里面的元素不会影响到外部的元素. BFC原理( ...

  9. vue使用vuex报错 "export 'watch' was not found in 'vue'

    问题 安装Vuex后报错"export 'watch' was not found in 'vue' 解决方法 如果你的vue版本是 2.X ,将vuex升到 3.X.X 就能够解决 npm ...

  10. Lambda表达式无参数无返回值的练习和Lambda表达式有参数有返回值的练习

    题目: 给定一个厨子Cook接口,内容唯一的抽象方法makeFood,且无参数.无返回值.如下: public interface Cook{ void makeFood(); } 在下面的代碼中,使 ...