greenplum-时间处理】的更多相关文章

这几天搞系统迁移,老板突然想知道给客户开的那么多用户当中,哪些还在用,哪些已经不用了.我们的数据库是 Greenplum,而且还是一直没有升级的老版本,Google 了一下没有发现特别好的查看用户登录情况的方法.咨询了 Greenplum 的售后同事后,对方建议我们使用 gp_toolkit.gp_log_database 通过遍历日志来获取用户登录信息. gp_log_database 的详细信息可以在官方指南里找到. https://gpdb.docs.pivotal.io/43130/re…
GP可以使用date_part / extract从日期时间类型中抽取部分内容. 方法一:extract 格式:extract(field from source)  extract函数从日期.时间数值里抽取子域,例如年.小时等. 注意: source的类型type必须为:timestamp.time.interval类型的值,因此date格式必须转换为timestamp格式 field是一个标识符或者字符串,指定所抽取的域 select extract(century from timesta…
简介: GreenPlum是一个基于PostgreSQL数据库开发的MPP架构的数据库仓库,适用于OLAP系统,支持50PB(1PB=1000TB)级海量数据的存储和处理. 背景: 目前有一个业务是需要将Oracle数据库中的基础数据增量同步到GreenPlum数据仓库,便于进行数据分析和处理. 规模: 每天产生60G左右数据,最大的表每天新增上亿条数据. 解决方法: 1)历史数据通过抽取导入的方式进行初始化. 2)增量更新数据: 使用GoldenGate将Oracle日志解析,传给GreenP…
最近需要安装Greenplum测试一些东西,在安装过程中出现了许多问题,所以在这里将安装过程整理一下,主要参考<Greenplum企业应用实践>和http://jxzhfei.blog.51cto.com/1382161/1767126,链接的文章和书中的安装是基本吻合的,但是比书上更加详细一些. 我安装的平台有两个:win虚拟机和云服务器,有区别的地方我会注明的. 下面我详细记录一下安装过程: 1.安装centOS操作系统 我使用的是CentOS6.5.需要注意的是CenOS6和CentOS…
这里对查询计划的学习主要是对TPC-H中Query2的分析. 1.Query的查询语句 select s_acctbal, s_name, n_name, p_partkey, p_mfgr, s_address, s_phone, s_comment from part, supplier, partsupp, nation, region where p_partkey = ps_partkey and s_suppkey = ps_suppkey and p_size = and p_ty…
Greenplum 数据库安装部署(生产环境) 硬件配置: 16 台 IBM X3650, 节点配置:CPU 2 * 8core,内存 128GB,硬盘 16 * 900GB,万兆网卡. 万兆交换机. 安装需求: 1台Master,1台Standby Master,14台Segment计算节点. 安装步骤: Master节点安装 创建GP安装配置文件并配置ssh互信 关闭防火墙及开启自启动 关闭SELinux 磁盘调度算法 磁盘预读取配置 语言与字符集 Sysctl.conf增加配置 用户资源限…
Greenplum接触也有一段时间了,在使用过程中积累了一些命令,在此分享给大家. 1. 查看segment是否有切换(没有记录则没有切换) SELECT * from gp_segment_configuration where status='d' or mode <> 's'; 2.  查看表的分布是否均匀 ; 3. 统计各个数据库大小 select datname,pg_size_pretty(pg_database_size(datname)) from pg_database; 4…
在使用greenplum中会使用分区表,但同时分区表需要维护分区:比如加分区,这个过程比较痛苦,查询相关资料以后有了相应的解决办法,但是该办法也不是万能的,有诸多限制,关于限制有兴趣的同学可以查看我文章最后提到的参考资料. 创建2个表(range分区表和list分区表) CREATE TABLE tb1_partition_list_yyyymmdd ( id numeric, yyyymmdd ) ) ) DISTRIBUTED BY (id) PARTITION BY LIST(yyyymm…
最近开始接触Greenplum,线上也在使用了,感觉还不错,本次介绍一下集群的部署方法.那么Greenplum的架构如下: (架构图来源网络) 简单来说GPDB是一个分布式数据库软件,其可以管理和处理分布在多个不同主机上的海量数据.对于GPDB来说,一个DB实例实际上是由多个独立的PostgreSQL实例组成的,它们分布在不同的物理主机上,协同工作,呈现给用户的是一个DB的效果.Master是GPDB系统的访问入口,其负责处理客户端的连接及SQL 命令.协调系统中的其他Instance(Segm…
1.实验环境 1.1.硬件环境 Oracle VM VirtualBox虚拟机软件:三台Linux虚拟机:Centos 6.5:数据库:greenplum-db-4.3.9.1-build-1-rhel5-x86_64.zip. 1.2网卡设置 1.3.虚拟机配置 1.3.1.基本信息配置 节点 IP 内存 硬盘 master 192.168.30.180 2048M 50G slave1 192.168.30.181 1024M 50G slave2 192.168.30.182 1024M…
版权声明:本文由黄辉原创文章,转载请注明出处: 文章原文链接:https://www.qcloud.com/community/article/259 来源:腾云阁 https://www.qcloud.com/community 之前对GreenPlum与Mysql进行了TPC-H类的对比测试,发现同等资源配比条件下,GreenPlum的性能远好于Mysql,有部分原因是得益于GreenPlum本身采用了更高效的算法,比如说做多表join时,采用的是hash join方式.如果采用同样高效的算…
  目标架构如上图   一.硬件评估 cpu主频,核数推荐CPU核数与磁盘数的比例在12:12以上Instance上执行时只能利用一个CPU核资源进行计算,推荐高主频 内存容量 网络带宽重分布操作 Raid性能条带宽度设置回写特性 二.操作系统   1.在SUSE或者RedHat上使用xfs(操作系统使用ext3)    在Solaris上使用zfs(操作系统使用ufs) 2.系统包 出现如下界面,按照下面的说明进行勾选,之后一直[Next]到开始安装. -->[Desktop Environm…
PostgreSQL和Greenplum.Npgsql 想着要不要写,两个原因“懒”和“空”.其实懒和空也是有联系的,不是因为懒的写,而是因为对PostgreSQL和Npgsql的知识了解匮乏,也就懒得写.好了,开头就写到这里,有些绕口令的感觉.一贯以这种不靠谱的描述开头,也成为了一种习惯,既然是习惯,也还不算坏,得坚持. 其实想写PostgreSQL和Npgsql的博客起因还是因为项目中用到了,虽然网上有很多对PostgreSQL数据库支持的类库,可以拿来就用,但多少有些不踏实.也许是老了的原…
公司有个项目需要安装greenplum数据库,让我这个gp小白很是受伤,在网上各种搜,结果找到的都是TMD坑货帖子,但是经过4日苦战,总算是把greenplum的安装弄了个明白,单机及集群模式都部署成功,下面由我给大家分享一下整个部署过程,并小分析一下安装过程中遇到的各种坑. 首先,说一下我的环境,CentOS 7.2.1511,64位操作系统,全新安装,没有更新过 [root@mdw ~]# cat /etc/redhat-release CentOS Linux release 7.2.15…
阿里云大数据三次技术突围:Greenplum.Hadoop和"飞天"    对于企业来说,到底什么是云计算?相信很多企业都有这样的困惑,让我们一起回到这个原始的起点探讨究竟什么是云计算?云计算对于企业而言到底意味什么? 云计算的三条发展路径及三种落地形态 当回到最初的起点再审视云计算的发展路径,可以发现,经过十余年的发展演进,云计算有三条发展路径,并且最终沉淀下来了三种落地形态. 第一条路:源自于谷歌对大规模数据的处理,谷歌为全球的互联网用户提供同一个服务--搜索,它需要将全世界所有的…
版权声明:本文由黄辉原创文章,转载请注明出处: 文章原文链接:https://www.qcloud.com/community/article/195 来源:腾云阁 https://www.qcloud.com/community 如今,多样的交易模式以及大众消费观念的改变使得数据库应用领域不断扩大,现代的大型分布式应用系统的数据膨胀也对数据库的海量数据处理能力和并行处理能力提出了更高的要求,如何在数据呈现海量扩张的同时提高处理速度和应用系统的可用性,使客户能同时得到更高的处理速度.更高的数据可…
公司TM蛋疼,动不动让你学习新东西,就是不让你闲下来,本着胳膊拧不过大腿定律,忍了,这是背景. 好吧哥端起一本厚厚的<GreenPlum企业应用实战>,打开百度开始GP的学习之路: GP只能安装到linux系统上,本人没机会安装直接,大牛直接给的是虚拟机,上面已经配置好了环境,这里linux系统用的红帽子(redhat). /**gp中的基本sql语法**/ --删除表 drop table testtb; --创建表 CREATE TABLE testtb ( id integer, &qu…
想着要不要写,两个原因"懒"和"空".其实懒和空也是有联系的,不是因为懒的写,而是因为对PostgreSQL和Npgsql的知识了解匮乏,也就懒得写.好了,开头就写到这里,有些绕口令的感觉.一贯以这种不靠谱的描述开头,也成为了一种习惯,既然是习惯,也还不算坏,得坚持. 其实想写PostgreSQL和Npgsql的博客起因还是因为项目中用到了,虽然网上有很多对PostgreSQL数据库支持的类库,可以拿来就用,但多少有些不踏实.也许是老了的原因,危机意识的督促下,还是…
如今,多样的交易模式以及大众消费观念的改变使得数据库应用领域不断扩大,现代的大型分布式应用系统的数据膨胀也对数据库的海量数据处理能力和并行处理能力提出了更高的要求,如何在数据呈现海量扩张的同时提高处理速度和应用系统的可用性,使客户能同时得到更高的处理速度.更高的数据可用性和更大的数据集,是数据库系统面临的一个挑战. 通过TPC-H基准测试,可获得数据库单位时间内的性能处理能力,为评估数据库系统的现有性能服务水平提供有效依据,通过横向对比促进数据库系统的整体质量提升,能更好地在重大信息化工程中实现…
一.编译环境 Linux version 3.10.0-327.el7.x86_64 (builder@kbuilder.dev.centos.org) (gcc version 4.8.3 20140911 (Red Hat 4.8.3-9) (GCC) ) greenplum 5.3.0 二.编译过程 2.1.下载greenplum源码 可从该位置下载需要的版本:https://github.com/greenplum-db/gpdb/releases/(此处使用5.3.0) 2.2.解压…
首先声明:未经本人同意,请勿转载,谢谢! 本人使用自己编译的开源版本的greenplum数据库用于学习,版本为PostgreSQL 8.3.23 (Greenplum Database 4.3.99.00 build dev) on x86_64-unknown-linux-gnu, compiled by GCC gcc (GCC) 4.8.5 20150623 在使用的过程中遇到不少的问题,今天记录一下高并发的情况下,执行insert和vacuum操作造成的死锁,以及解决方案 一.问题描述:…
一.问题描述 使用gpfdist往集群中导入大量数据, 一段时间后连接退出,集群无法连接 二.问题定位 使用如下命令查看: gpstate -s mdw-:gpadmin-[INFO]:- Segment Info mdw-:gpadmin-[INFO]:- Hostname = sdw- mdw-:gpadmin-[INFO]:- Address = sdw- mdw-:gpadmin-[INFO]:- Datadir = /home/mirror/gpseg2 mdw-:gpadmin-[I…
一.Greenplum背景 时间回到2002年,互联网行业经过近10年的发展,数据量正处于快速增长期: 1.传统的主机计算模式在海量数据面前,除了造价昂贵外,在CPU计算和IO吞吐上不能满足海量数据的计算需求: 2.传统数据库大多基于SMP架,纵向扩容(scale-up)模式遇到了瓶颈. 3.分布式存储和分布式计算理论刚刚被提出来,Google的两篇著名论文关于GFS分布式文件系统和关于MapReduce 并行计算框架的理论引起业界的关注,分布式计算模式在互联网行业特别是收索引擎和分词检索等方面…
开卷有益——作者的话 有时候真的感叹人生岁月匆匆,特别是当一个IT人沉浸于某个技术领域十来年后,蓦然回首,总有说不出的万千感慨. 笔者有幸从04年就开始从事大规模数据计算的相关工作,08年作为Greenplum 早期员工加入Greenplum团队(当时的工牌是“005”,哈哈),记得当时看了一眼Greenplum的架构(嗯,就是现在大家耳熟能详的那个好多个X86框框的图),就义无反顾地加入了,转眼之间,已经到了第8个年头. 在诸多项目中我亲历了Greenplum在国内的生根发芽到高速发展,再到现…
1.使用java的Calendar工具类获取到本月的第一天起始时间和最后一天结束时间. package com.fline.aic.utils; import java.text.DateFormat; import java.text.SimpleDateFormat; import java.util.Calendar; import java.util.Date; /** * * @Description TODO * @author biehl * @Date 2018年11月13日 上…
1.使用mysql的union all可以同时查询出所有自己想要查询数据表的数据量. select 'user' as tablename, count(*) from user union all select 'teacher' as tablename, count(*) from teacher union all select 'person' as tablename, count(*) from person union all select 'student' as tablen…
配置greenplum客户端认证 配置pg_hba.conf cd /home/gpadmin/gpdbdata/master/gpseg- vim pg_hba.conf 增加 host all gpadmin trust [gpadmin@ gpseg-]$ export PGDATA=/home/gpadmin/gpdbdata/master/gpseg- [gpadmin@ gpseg-]$ pg_ctl reload -D $PGDATA server signaled 使用Psyco…
作者:李树桓 个推数据研发工程师 前言:近年来,互联网的快速发展积累了海量大数据,而在这些大数据的处理上,不同技术栈所具备的性能也有所不同,如何快速有效地处理这些庞大的数据仓,成为很多运营者为之苦恼的问题!随着Greenplum的异军突起,以往大数据仓库所面临的很多问题都得到了有效解决,Greenplum也成为新一代海量数据处理典型代表.本文结合个推数据研发工程师李树桓在大数据领域的实践,对处理庞大的数据量时,如何选择有效的技术栈做了深入研究,探索出Greenplum是当前处理大数据仓较为高效稳…
Greenplum数据库架构 Greenplum数据库基本由PostgreSQL核心增强数据库实例组合并衔接成的数据库管理系统,即Greenplum数据在PostgreSQL基础上扩展开发,每个Greenplum数据库由1个master实例和2个或2个以上segment实例组成,客户端使用PostgreSQL规范与Master交互.以上的插图,展示Greenplum数据库实例由1个master和8 segement实例组成 Master Host或Master实例就是GreenPlum数据服务端…
Greenplum入门——基础知识.安装.常用函数 2017年10月08日 22:03:09 在咖啡里溺水的鱼 阅读数:8709    版权声明:本文为博主原创,允许非商业性质转载但请注明原作者和出处. https://blog.csdn.net/KEY0323/article/details/78177964 本文为博主在学习Greenplum时阅读的<Greenplum企业应用实战>时的笔记,对书中章节的知识要点进行了归纳和梳理.有兴趣的同学可以找原书学习下.如果认为文中内容涉嫌侵权请及时…