从MySQL向Greenplum集群中导入数据

我们要从MySQL当中导出数据到Greenplum当中，按照以下步骤就可以

1：将MySQL当中的表导出外部文件

以schema_name.table_name为例

select

 product_id, number, name, english_name, purchase_name, system_name, bar_code, category_one, category_two, category_three,

 parent_id, parent_number, brand_id, supplier_id, price, ad_word, give_integral, shelf_life, FROM_UNIXTIME(shelve_date), product_area, country,

 sale_unit, specification, weight, length, width, height, storage_conditions, storage, model, refuse_notes, status, is_promote,

 is_gift, is_book, is_outgoing, is_presale, is_fragile, is_have, is_cod, is_return, is_oos, is_seasonal, is_multicity, is_package, is_show, click,

 favorite, min_purchase_unit, in_price, refer_in_price, mwaverage_price, is_unique_number, is_batch_number, qs_proportion, shelf_life_proportion, box_specification,

 max_unsalable, advent_shelves, pro_warning, FROM_UNIXTIME(add_time), operator_id,FROM_UNIXTIME( audit_time), remark, price_type, new_tag, product_type, business_model, is_sell, return_policy,

 package, inventory, merchant_number, modified_time ,now()

 from schema_name.table_name  INTO OUTFILE '/tmp/table_name.txt';

导的时候需要注意，一些字符的转换，对于这张表来说，主要就是在MySQL当中一些时间格式存储的为INT类型，我们需要进行转化后然后导出，而且在Greenplum当中建表的时候会多一个时间字段，我们这里默认导出现在时间。按照以上格式进行导出。

2：将文件拷贝到Greenplum服务器上，并且创建外部表

先将文件拷贝到外部表的目录下，这个比较简单，什么方法都可以，然后创建外部表：

create external  TABLE  schema_name.table_name_ext( product_id int,

number varchar(10),

name varchar(100),

english_name varchar(100),

purchase_name varchar(100),

system_name varchar(100),

bar_code varchar(255),

category_one int,

category_two int,

category_three int,

parent_id int,

parent_number int,

brand_id int,

supplier_id int,

price int,

ad_word varchar(100),

give_integral int,

shelf_life int,

shelve_date timestamp without time zone,

product_area int,

country int,

sale_unit varchar(20),

specification varchar(255),

weight decimal(10,2) ,

length int,

width int,

height int,

storage_conditions varchar(255),

storage smallint,

model varchar(20),

refuse_notes varchar(255),

status smallint,

is_promote smallint,

is_gift smallint,

is_book smallint,

is_outgoing smallint,

is_presale int,

is_fragile smallint,

is_have smallint,

is_cod smallint,

is_return smallint,

is_oos smallint,

is_seasonal smallint,

is_multicity smallint,

is_package smallint,

is_show smallint,

click int,

favorite int,

min_purchase_unit int,

in_price int,

refer_in_price int,

mwaverage_price int,

is_unique_number int,

is_batch_number int,

qs_proportion int,

shelf_life_proportion DOUBLE PRECISION,

box_specification varchar(50),

max_unsalable int,

advent_shelves int,

pro_warning int,

add_time timestamp without time zone,

operator_id int,

audit_time timestamp without time zone,

remark varchar(255),

price_type smallint,

new_tag int,

product_type int,

business_model smallint,

is_sell smallint,

return_policy smallint,

package varchar(200),

inventory varchar(200),

merchant_number int,

modified_time timestamp without time zone,

dw_modified_time timestamp without time zone

)  location(

'gpfdist://172.16.16.34:9888/table_name.txt' ) 
FORMAT 'TEXT' SEGMENT REJECT LIMIT 1000000 rows ;

这里我们要指定'gpfdist://172.16.16.34:9888/table_name.txt'，这个IP地址加上外部表就可以了，后面要把这个文件拷贝到 gpfdist 的目录当中，我们看下启动方式gpfdist -d /tmp -p 9888，也就是要把外部文件拷贝到/tmp目录下才可以。其他的注意列名对应就好

然后查询一下，一般情况列对上就不会有问题。

3：导入到Greenplum当中正式表

先创建一张正式表：

create table schema_name.table_name ( product_id int,

number varchar(10),

name varchar(100),

english_name varchar(100),

purchase_name varchar(100),

system_name varchar(100),

bar_code varchar(255),

category_one int,

category_two int,

category_three int,

parent_id int,

parent_number int,

brand_id int,

supplier_id int,

price int,

ad_word varchar(100),

give_integral int,

shelf_life int,

shelve_date timestamp without time zone,

product_area int,

country int,

sale_unit varchar(20),

specification varchar(255),

weight decimal(10,2) ,

length int,

width int,

height int,

storage_conditions varchar(255),

storage smallint,

model varchar(20),

refuse_notes varchar(255),

status smallint,

is_promote smallint,

is_gift smallint,

is_book smallint,

is_outgoing smallint,

is_presale int,

is_fragile smallint,

is_have smallint,

is_cod smallint,

is_return smallint,

is_oos smallint,

is_seasonal smallint,

is_multicity smallint,

is_package smallint,

is_show smallint,

click int,

favorite int,

min_purchase_unit int,

in_price int,

refer_in_price int,

mwaverage_price int,

is_unique_number int,

is_batch_number int,

qs_proportion int,

shelf_life_proportion DOUBLE PRECISION,

box_specification varchar(50),

max_unsalable int,

advent_shelves int,

pro_warning int,

add_time timestamp without time zone,

operator_id int,

audit_time timestamp without time zone,

remark varchar(255),

price_type smallint,

new_tag int,

product_type int,

business_model smallint,

is_sell smallint,

return_policy smallint,

package varchar(200),

inventory varchar(200),

merchant_number int,

modified_time timestamp without time zone,

dw_modified_time timestamp without time zone

) distributed by(product_id);

然后导入数据：

insert into schema_name.table_name

select * from schema_name.table_name_ext

这样就把外部表数据导出到了内部表，均匀分布在每个segment上。注意schema_name.table_name的结构要和schema_name.table_name_ext是一致的。

从MySQL向Greenplum集群中导入数据的更多相关文章

如何使用Hive&R从Hadoop集群中提取数据进行分析
一个简单的例子! 环境:CentOS6.5 Hadoop集群.Hive.R.RHive,具体安装及调试方法见博客内文档. 1.分析题目 --有一个用户数据样本(表名huserinfo)10万数据左右: ...
Kafka集群中 topic数据的分区迁移到其他broker
前言 kafka集群扩容后,新的broker上面不会数据进入这些节点,也就是说,这些节点是空闲的:它只有在创建新的topic时才会参与工作.除非将已有的partition迁移到新的服务器上面:所以需要 ...
MySQL mysqlimport 从txt文件中导入数据到mysql数据库
mysqlimport: 我说这个我们还是先从世界观方法论的高度来理解一下便有更加准确的把握.数据导入不外呼有两个部分第一部分:目标对象--我们要把数据导给谁(mysqlimport 的目标对象自然 ...
greenplum集群某台机器磁盘占用100%处理方式
一.问题描述使用gpfdist往集群中导入大量数据, 一段时间后连接退出,集群无法连接二.问题定位使用如下命令查看: gpstate -s mdw-:gpadmin-[INFO]:- Segme ...
Mysql 高可用集群PXC
PXC是percona公司的percona xtraDB cluster,简称PXC.它是基于Galera协议的高可用集群方案.可以实现多个节点间的数据同步复制以及读写,并且可保障数据库的服务高可 ...
MySQL 8 InnoDB 集群管理
使用 dba.checkInstanceConfiguration() 在添加实例到集群中前,使用该方法检查实例配置是否满足InnoDB 集群要求. 使用 dba.configureLocalInst ...
ES：在线迁移集群索引，数据不丢失
一.背景生产环境由于某些原因需要跨机房迁移ES集群,或者同机房原有集群中所有节点全部更换,期间ES索引要求完整,客户端请求中断不超过五分钟. 二.应用场景 1.同机房不同集群之间数据迁移: 2.跨机 ...
MySql集群FAQ----mysql主从配置与集群区别、集群中需要多少台计算机呢?为什么? 等
抽取一部分显示在这里,如下, What's the difference in using Clustervs using replication? 在复制系统中,一个MySQL主服务器会更新一个或多 ...
atlas+mysql主主集群实现读写分离
atlas+mysql主主集群实现读写分离前言: 目前线上系统数据库采用的是主主架构.其中一台主仅在故障时切换使用,(仅单台服务器对外提供服务,当一台出现问题,切换至另一台).该结构很难支撑较大并 ...

随机推荐

分区助手里如何从临近盘（如D盘）抽取一定的空间给已经快满了的盘（如E盘）（博主推荐）（图文详解）
不多说,直接上干货! 分区助手是什么?(博主推荐)(图文详解) 分区助手各版本比较(图文详解) 分区助手官网使用教程(专业版.绿色版和WinPE版)(图文详解) 安装分区助手时出现“分区助手已安装到你 ...
webpack4重新梳理一下2
上一篇已经实现了webpack的基本打包操作,但是并没有使用配置文件,而是使用 CLI 来实现打包. 配置文件 // webpack.config.js module.exports = { //入口 ...
java学习-get和post请求
摘要看完本文可以知道,使用java原生编写get/post请求的步骤,进行网络请求时应该注意的地方. 这里使用java自带的HttpUrlConnection对象进行网络请求, 请求步骤大致分为五步 ...
HttpClient和HttpGet 参数的优先级
http://www.cnblogs.com/LBSer/p/3295584.html 一般在使用HttpClient时,我们提前设置好参数,比如超时时间(一般socket超时和连接超时) priva ...
Node.js http服务器搭建和发送http的get、post请求
1.Node.js 搭建http服务器 1.1创建server.js var http = require('http'); var querystring = require('querystrin ...
深入了解Java虚拟机（2）垃圾收集器与内存分配策略
垃圾收集器与内存分配策略由于JVM中对象的频繁操作是在堆中,所以主要回收的是堆内存,方法区中的回收也有,但是比较谨慎一.对象死亡判断方法 1.引用计数法就是如果对象被引用一次,就给计数器+1,否 ...
[转]Enabling CRUD Operations in ASP.NET Web API 1
本文转自:https://docs.microsoft.com/en-us/aspnet/web-api/overview/older-versions/creating-a-web-api-that ...
对于单文本或者div的内容怎么在显示东西过多的情况下实现显示隐藏
js代码: $(function () { var o = document.getElementById("newsdetail_ArticleContent"); Subt(o ...
SQL Server数据库状态和文件状态
数据库状态 (database states) 查询数据库的当前状态 : 1.查询所有数据库的状态 ,通过sys.databases目录视图的state_desc列 user master go se ...
从一个带有http://网络文件中获取文件名
例如文件网址为: http://a.hiphotos.baidu.com/image/h%3D200/sign=c3da85e50123dd543e73a068e108b3df/80cb39dbb6f ...