PostgreSQL快速导入千万条数据

2023-10-09 09:03:04 原文

目录

一、测试环境
二、修改源数据为COPY可用的格式
三、DDL
四、COPY
五、结论

为了与MySQL做个对比，做一个PG的数据导入测试，使用COPY方式，测试环境保持一致，具体如下所述。

一、测试环境

■ 48CPU/376G

CPU(s):                48

Thread(s) per core:    2

Core(s) per socket:    12

Socket(s):             2

Model name:            Intel(R) Xeon(R) Gold 5118 CPU @ 2.30GHz

L1d cache:             32K

L1i cache:             32K

L2 cache:              1024K

L3 cache:              16896K

■ DISK

Model: AVAGO HW-SAS3508 (scsi)

Disk /dev/sdb: 12.0TB

test write：1.1GB/s

test read： 3.9GB/s

■ OS

Red Hat Enterprise Linux Server 7.4 (Maipo)

■ FS

Filesystem                  Type      Size  Used Avail Use% Mounted on

/dev/mapper/vgora-lv_u01    xfs        11T  792G   11T   8% /u01

■ db version

[postgres@adg1:2 ~]$ psql -V

psql (PostgreSQL) 14.2

[postgres@adg1:2 ~]$ pg_ctl -V

pg_ctl (PostgreSQL) 14.2

二、修改源数据为COPY可用的格式

源数据：与MySQL测试保持一致

格式：MySQL导出的DOS文本文件格式(\n\r)，修改为unix文本文件格式(\n)

【此处使用csv格式】

使用head、awk、sed工具取出所需的记录行，并修改各行数据格式。

由于源数据存在'，导致无法正确导入，需把'替换成"或其他字符。

sed -i "s/\\\'/\"/g" mydata.sql

三、DDL

■ 根据最原始的源数据，调整DDL语句

CREATE TABLE tablename (

  id int4 NOT NULL,

  code varchar(100) DEFAULT NULL,

  init_value text,

  master_id text DEFAULT NULL,

  code_id varchar(11) DEFAULT NULL,

  end_value text

);

ALTER TABLE tablename ADD PRIMARY KEY (id);

CREATE INDEX tablename_master_id ON tablename USING btree (master_id);

CREATE INDEX tablename_code ON tablename USING btree (code);

四、COPY

COPY tablename FROM '/u01/pg/mydata.sql' WITH DELIMITER ',' CSV QUOTE '''';

耗时记录如下：

■ 100万

COPY 1000000

Time: 8938.071 ms (00:08.938)

■ 500万

COPY 4999966

Time: 70209.830 ms (01:10.210)

COPY 5000000

Time: 56365.434 ms (00:56.365)

COPY 5000000

Time: 65061.424 ms (01:05.061)

■ 2000万

COPY 19999961

Time: 257502.571 ms (04:17.503)

COPY 19999962

Time: 252777.564 ms (04:12.778)

COPY 20000000

Time: 250620.213 ms (04:10.620)

COPY 10578983

Time: 138167.048 ms (02:18.167)

■ 3000万

COPY 30578975

Time: 397111.329 ms (06:37.111)

COPY 30578983

Time: 391768.993 ms (06:31.769)

COPY 30578983

Time: 388049.729 ms (06:28.050)

五、结论

pg用LOAD方法的大数据量导入，千万条数据需要1分钟以上。

关于pg的数据导入，后续再探讨一下其他更好的方式。

PostgreSQL快速导入千万条数据的更多相关文章

orcle 如何快速插入百万千万条数据
有时候做实验测试数据用到大量数据时可以用以下方法插入: 方法一:使用xmltable create table bqh8 as select rownum as id from xmltable('1 ...
java之5分钟插入千万条数据
虽说不一定5分钟就插入完毕,因为取决去所插入的字段,如果字段过多会稍微慢点,但不至于太慢.10分钟内基本能看到结果. 之前我尝试用多线程来实现数据插入(百万条数据),半个多小时才二十多万条数据. 线程 ...
腾讯面试题,js处理1千万条数据排序并且页面不卡顿
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
mysql自定义函数并在存储过程中调用，生成一千万条数据
mysql 自定义函数,生成 n 个字符长度的随机字符串 -- sql function delimiter $$ create function rand_str(n int) returns VA ...
快速生成100W条数据
快速生成100W条数据,生成的时候是顺序生成,取的时候是随机取用,生成100W条数据大概一分多钟,比网上其他代码速度要快很多 )) --truncate table tb --select top 1 ...
LOAD DATA INFILE读取CSV中一千万条数据至mysql
作业要求构建一个关系模式和课本中的关系movies(title,year,length,movietype,studioname,producerC)一样的关系,名称自定,在这个关系中插入1000万 ...
[MyBatis]五分钟向MySql数据库插入一千万条数据批量插入用时5分左右
本例代码下载:https://files.cnblogs.com/files/xiandedanteng/InsertMillionComparison20191012.rar 我的数据库环境是mys ...
Postgresql快速写入/读取大量数据（.net）
环境及测试使用.net驱动npgsql连接post数据库.配置:win10 x64, i5-4590, 16G DDR3, SSD 850EVO. postgresql 9.6.3,数据库与数据都安 ...
快速导入导出Oracle数据demo(sqlldr、UTL_FILE)
本文演示快速sqlldr导入.UTL_FILE导出Oracle表数据实例表结构如下,演示数据约112万,可自行准备. create table MemberPointDemo ( MEMBERID ...
python+mysql:实现一千万条数据插入数据库
作业要求构建一个关系模式和课本中的关系movies(title,year,length,movietype,studioname,producerC)一样的关系,名称自定,在这个关系中插入1000万 ...

随机推荐

逆向之Ja3指纹学习
声明本文章中所有内容仅供学习交流,抓包内容.敏感网址.数据接口均已做脱敏处理,严禁用于商业用途和非法用途,否则由此产生的一切后果均与作者无关,若有侵权,请联系我立即删除! tls tls实际上前身就 ...
CF1832F Zombies
简要题意给定 \(n\) 个左闭右开的区间 \(A_i = [L_i, R_i)\),其中 \(0\le L_i < R_i \le x\),你可以自由选择 \(k\) 个长度为 \(m\) ...
编译器设计中的元编程：从Python到JavaScript的实现
目录编译器设计中的元编程:从Python到JavaScript的实现随着编程语言的发展,编译器的实现也在不断地演变.编译器的实现方式有很多种,其中元编程(metaprogramming)是一种非常 ...
如何从AWS中学习如何使用AmazonSimpleStorageService(S3)进行数据存储
目录文章标题:32. <如何从 AWS 中学习如何使用 Amazon Simple Storage Service (S3) 进行数据存储> 背景介绍: 随着数据量的不断增加,数据存储的 ...
celery笔记六之worker介绍
本文首发于公众号:Hunter后端原文链接:celery笔记六之worker介绍前面我们介绍过 celery 的理想的设计方式是几个 worker 处理特定的任务队列的数据,这样可以避免任务在队列 ...
Fabric架构详解
1 整体架构 2 运行架构 Fabric CA(可选) peer:主节点模块,负责存储区块链数据,运行维护链码 orderer:交易打包,排序模块 cryptogen:组织和证书等资料生成模块 con ...
Mysql基础篇（四）之事务
一. 事务简介事务是一组操作的集合,它是一个不可分隔的工作单位,事务会把所有的操作作为一个整体一起向系统提交或撤销操作请求,即这些操作要么同时成功,要么同时失败. 就比如:张三给李四转账1000块钱 ...
每日一题力扣 1377 https://leetcode.cn/problems/frog-position-after-t-seconds/
力扣 1377 https://leetcode.cn/problems/frog-position-after-t-seconds/ 这道题目用dp去做,构建邻接矩阵,做的时候需要注意题目条件,如果 ...
一文学会TextureID渲染到Surface
最近遇到一个需求,要求将一个GL_TEXTURE_2D类型的纹理ID写入到ImageReader生成的Surface中. 其实这个需求与我之前写过的一篇文章一文学会MediaCodeC与OpenGL ...
Senparc.Weixin.MP SDK 微信公众平台开发教程（二十四）：顺应 AIGC 应用，自动“续航”回复超长文本消息
开源地址 GitHub:https://github.com/JeffreySu/WeiXinMPSDK Gitee:https://gitee.com/JeffreySu/WeiXinMPSDK 概 ...