1. 介绍

　　PostgreSQL提供了一个copy命令的便利数据加载工具，copy命令源于PostgreSQL数据库，copy命令支持文件与表之间的数据加载和表对文件的数据卸载。pg_bulkload是一种用于PostgreSQL的高速数据加载工具，相比copy命令。最大的优势就是速度。优势在让我们跳过shared buffer,wal buffer。直接写文件。pg_bulkload的direct模式就是这种思路来实现的，它还包含了数据恢复功能，即导入失败的话，需要恢复。

2. pg_bulkload架构图

　　pg_bulkload主要包括两个模块：reader和writer。reader负责读取文件、解析tuple，writer负责把解析出的tuple写入输出源中。pg_bulkload最初的版本功能很简单，只是加载数据。3.1版本增加了数据过滤的功能。

3. pg_bulkload安装

[root@Postgres201 ~]# unzip pg_bulkload-VERSION3_1_10.zip

[root@Postgres201 ~]# cd pg_bulkload-VERSION3_1_10

[root@Postgres201 pg_bulkload-VERSION3_1_10]# make

[root@Postgres201 pg_bulkload-VERSION3_1_10]# make install

安装完成；要使用它需要建extension

[postgres@Postgres201 ~]$ psql lottu lottu

psql (9.6.0)

Type "help" for help.

lottu=# create extension pg_bulkload;

CREATE EXTENSION

4. pg_bulkload参数

[postgres@Postgres201 ~]$ pg_bulkload --help

pg_bulkload is a bulk data loading tool for PostgreSQL

Usage:

  Dataload: pg_bulkload [dataload options] control_file_path

  Recovery: pg_bulkload -r [-D DATADIR]

Dataload options:

  -i, --input=INPUT         INPUT path or function

  -O, --output=OUTPUT       OUTPUT path or table

  -l, --logfile=LOGFILE     LOGFILE path

  -P, --parse-badfile=*     PARSE_BADFILE path

  -u, --duplicate-badfile=* DUPLICATE_BADFILE path

  -o, --option="key=val"    additional option

Recovery options:

  -r, --recovery            execute recovery

  -D, --pgdata=DATADIR      database directory

Connection options:

  -d, --dbname=DBNAME       database to connect

  -h, --host=HOSTNAME       database server host or socket directory

  -p, --port=PORT           database server port

  -U, --username=USERNAME   user name to connect as

  -w, --no-password         never prompt for password

  -W, --password            force password prompt

Generic options:

  -e, --echo                echo queries

  -E, --elevel=LEVEL        set output message level

  --help                    show this help, then exit

  --version                 output version information, then exit

5. pg_bulkload的使用

　　创建测试表tbl_lottu和测试文件tbl_lottu_output.txt

[postgres@Postgres201 ~]$ psql lottu lottu

psql (9.6.)

Type "help" for help.

lottu=# create table tbl_lottu(id int,name text);

CREATE TABLE

[postgres@Postgres201 ~]$  seq | awk '{print $0"|lottu"}' > tbl_lottu_output.txt

不使用控制文件使用参数

[postgres@Postgres201 ~]$ pg_bulkload -i /home/postgres/tbl_lottu_output.txt -O tbl_lottu -l /home/postgres/tbl_lottu_output.log -P /home/postgres/tbl_lottu_bad.txt  -o "TYPE=CSV" -o "DELIMITER=|" -d lottu -U lottu

NOTICE: BULK LOAD START

NOTICE: BULK LOAD END

  Rows skipped.

  Rows successfully loaded.

  Rows not loaded due to parse errors.

  Rows not loaded due to duplicate errors.

  Rows replaced with new rows.

[postgres@Postgres201 ~]$ cat tbl_lottu_output.log

pg_bulkload 3.1. on -- ::18.326685+

INPUT = /home/postgres/tbl_lottu_output.txt

PARSE_BADFILE = /home/postgres/tbl_lottu_bad.txt

LOGFILE = /home/postgres/tbl_lottu_output.log

LIMIT = INFINITE

PARSE_ERRORS =

CHECK_CONSTRAINTS = NO

TYPE = CSV

SKIP =

DELIMITER = |

QUOTE = "\""

ESCAPE = "\""

NULL =

OUTPUT = lottu.tbl_lottu

MULTI_PROCESS = NO

VERBOSE = NO

WRITER = DIRECT

DUPLICATE_BADFILE = /data/postgres/data/pg_bulkload/20180712133718_lottu_lottu_tbl_lottu.dup.csv

DUPLICATE_ERRORS =

ON_DUPLICATE_KEEP = NEW

TRUNCATE = NO

   Rows skipped.

   Rows successfully loaded.

   Rows not loaded due to parse errors.

   Rows not loaded due to duplicate errors.

   Rows replaced with new rows.

Run began on -- ::18.326685+

Run ended on -- ::18.594494+

CPU .14s/.07u sec elapsed 0.27 sec

　　2. 导入之前先清理表数据

[postgres@Postgres201 ~]$ pg_bulkload -i /home/postgres/tbl_lottu_output.txt -O tbl_lottu -l /home/postgres/tbl_lottu_output.log -P /home/postgres/tbl_lottu_bad.txt  -o "TYPE=CSV" -o "DELIMITER=|" -o "TRUNCATE=YES" -d lottu -U lottu

NOTICE: BULK LOAD START

NOTICE: BULK LOAD END

  Rows skipped.

  Rows successfully loaded.

  Rows not loaded due to parse errors.

  Rows not loaded due to duplicate errors.

  Rows replaced with new rows.

[postgres@Postgres201 ~]$ psql lottu lottu -c "select count(1) from tbl_lottu;"

 count

--------

( row)

3. 使用控制文件

　　新建控制文件lottu.ctl

INPUT = /home/postgres/lotu01

PARSE_BADFILE = /home/postgres/tbl_lottu_bad.txt

LOGFILE = /home/postgres/tbl_lottu_output.log

LIMIT = INFINITE

PARSE_ERRORS =

CHECK_CONSTRAINTS = NO

TYPE = CSV

SKIP =

DELIMITER = |

QUOTE = "\""

ESCAPE = "\""

OUTPUT = lottu.tbl_lottu

MULTI_PROCESS = NO

WRITER = DIRECT

DUPLICATE_BADFILE = /home/postgres/tbl_lottu.dup.csv

DUPLICATE_ERRORS =

ON_DUPLICATE_KEEP = NEW

TRUNCATE = YES

使用控制文件进行加载操作

pg_bulkload  /home/postgres/lottu.ctl -d lottu -U lottu

[postgres@Postgres201 ~]$ pg_bulkload  /home/postgres/lottu.ctl -d lottu -U lottu

NOTICE: BULK LOAD START

NOTICE: BULK LOAD END

  Rows skipped.

  Rows successfully loaded.

  Rows not loaded due to parse errors.

  Rows not loaded due to duplicate errors.

  Rows replaced with new rows.

6. 总结

　　pg_bulkload是一种用于PostgreSQL的高速数据加载工具，相比copy命令。最大的优势就是速度。优势在让我们跳过shared buffer,wal buffer。直接写文件。pg_bulkload的direct模式就是这种思路来实现的。不足的是;表字段的顺序要跟导入的文件报错一致。希望后续版本能开发。

PostgreSQL数据加载工具之pg_bulkload的更多相关文章

GreenPlum数据加载
1. copy命令对于数据加载,GreenPlum数据库提供copy工具,copy工具源于PostgreSQL数据库,copy命令支持文件与表之间的数据加载和表对文件的数据卸载.使用copy命令进行 ...
MPP 二、Greenplum数据加载
Loading external data into greenplum database table using different ways... Greenplum 有常规的COPY加载方法,有 ...
flask+sqlite3+echarts3+ajax 异步数据加载
结构: /www | |-- /static |....|-- jquery-3.1.1.js |....|-- echarts.js(echarts3是单文件!!) | |-- /templates ...
浅谈Entity Framework中的数据加载方式
如果你还没有接触过或者根本不了解什么是Entity Framework,那么请看这里http://www.entityframeworktutorial.net/EntityFramework-Arc ...
Android Volley和Gson实现网络数据加载
Android Volley和Gson实现网络数据加载先看接口 1 升级接口 http://s.meibeike.com/mcloud/ota/cloudService POST请求参数列表如下 ...
Echarts通过Ajax实现动态数据加载
Echarts(3.x版)官网实例的数据都是静态的,实际使用中往往会要求从服务器端取数据进行动态显示,官网教程里给出的异步数据加载很粗略,下面就以官网最简单的实例为例子,详细演示如下过程:1.客户端通 ...
DICOM：DICOM三大开源库对比分析之“数据加载”
背景: 上一篇博文DICOM:DICOM万能编辑工具之Sante DICOM Editor介绍了DICOM万能编辑工具,在日常使用过程中发现,“只要Sante DICOM Editor打不开的数据,基 ...
PyTorch数据加载处理
PyTorch数据加载处理 PyTorch提供了许多工具来简化和希望数据加载,使代码更具可读性. 1.下载安装包 scikit-image:用于图像的IO和变换 pandas:用于更容易地进行csv解 ...
ScrollView嵌套ListView,GridView数据加载不全问题的解决
我们大家都知道ListView,GridView加载数据项,如果数据项过多时,就会显示滚动条.ScrollView组件里面只能包含一个组件,当ScrollView里面嵌套listView,GridVi ...

随机推荐

AndroidStudio+ideasmali动态调试smali汇编
0x00 前言之前对于app反编译的smali汇编语言都是静态分析为主,加上一点ida6.6的动态调试,但是ida的调试smali真的像鸡肋一样,各种不爽,遇到混淆过的java代码就欲哭无泪了 ...
Java NIO系列教程（七） FileChannel
Java NIO中的FileChannel是一个连接到文件的通道.可以通过文件通道读写文件. FileChannel无法设置为非阻塞模式,它总是运行在阻塞模式下. 打开FileChannel 在使用F ...
（转）第十一篇：springboot集成swagger2，构建优雅的Restful API
声明:本部分内容均转自于方志明博友的博客,因为本人很喜欢他的博客,所以一直在学习,转载仅是记录和分享,若也有喜欢的人的话,可以去他的博客首页看:http://blog.csdn.net/forezp/ ...
ASP.NET MVC5+EF6+LayUI实战教程，通用后台管理系统框架（1）
文章转自:http://www.xuboyi.com/298.html 前言网站运营有一段时间了,记录的内容都是杂七杂八的,思前想后,决定给大家分享一套ASP.Net的系列教程.手把手的做一套通用后 ...
JavaScript学习总结(四)——this、原型链、javascript面向对象
一.this 在JavaScript中this表示:谁调用当前函数this就指向谁,不知道调用者时this指向window. JavaScript是由对象组成的,一切皆为对象,万物皆为对象.this是 ...
Mac 自带的Apache php 狼神的
开启服务:sudo /usr/sbin/apachectl start 停止服务:sudo /usr/sbin/apachectl stop 重启服务:sudo /usr/sbin/apachectl ...
sql 整理积累
) AS t1 LEFT JOIN (SELECT * FROM dbo.xcqy2017_News_Classification) AS t2 ON t2.Ncid = t1.Ncid left j ...
EWS 邮件提醒
摘要之前做的邮件提醒的项目,最近需要优化,由于使用了队列,但即时性不是特别好,有队列,就会出现先后的问题,最近调研了exchange 流通知的模式,所以想使用流通知模式和原先的拉取邮件的方法结合,在 ...
Mock session,cookie,querystring in ASB.NET MVC
写测试用例的时候经常发现,所写的功能需要Http上下文的支持(session,cookie)这类的. 以下介绍2种应用场景. 用于控制器内Requet获取参数控制器内的Requet其实是控制器内的属 ...
Java - "JUC线程池" ThreadPoolExecutor原理解析
Java多线程系列--“JUC线程池”02之线程池原理(一) ThreadPoolExecutor简介 ThreadPoolExecutor是线程池类.对于线程池,可以通俗的将它理解为"存 ...

PostgreSQL数据加载工具之pg_bulkload