谈到GreenPlum,肯定会有同事说HAWQ!是的,在本系列第一篇选型流水记里,也有提到。因为对HAWQ接触有限,没有深入具体了解,所以很多信息都是来自于博文,人云亦云,我把看过的资料简要整理,希望对感兴趣的同事有一些帮助^_^

  1. HAWQ的身世:https://www.pivotalguru.com/?p=1176,目前已经开源:http://hawq.incubator.apache.org/
  2. HAWQ和GreenPlum的比较:https://www.pivotalguru.com/?p=719,可以简要归纳为:GreenPlum是存储和计算合体的,标准的RDBMS系统;而HAWQ是存储与计算分离的,它的存储放在HDFS上,它的计算你可以理解成是被阉割了存储模块的“GreenPlum”,当然,它对Hadoop生态圈的结合度更高,支持对接各种组件:Hive/Hbase/avro等等。这里补充一点:存储和计算分离有啥好处?或者解决了什么问题。大数据领域,影响数据分析的瓶颈就两块:一块是数据扫描(磁盘IO),另一块是数据计算(CPU+MEM)。想象一下,如果我们发现读数据非常耗时(磁盘IO瓶颈),那么可以增加磁盘通过增加IO带宽来解决问题,而如果发现计算耗时特别长,比如CPU一直100%或者MEM已经耗尽,那么可以增加计算资源(比如添加无穷无尽的云主机)来解决。反过来,如果存储和计算合体,那么意味着资源的有效利用率会很低,所以分离是趋势。
  3. 我们怎么来定位HAWQ和GreenPlum或者怎么来选择使用呢?答案是手拉手一起使用:https://www.pivotalguru.com/?p=642请注意博文底下的一幅图;另外,在http://dbaplus.cn/news-21-341-1.html一文中也有提到使用MPP+HDFS的组合架构,来构建基础数据仓库,满足不同业务需求;
  4. HAWQ当前发布版本暂不支持数据更新和删除操作,不过3.0.0.0版本将会支持:https://issues.apache.org/jira/browse/HAWQ-304
  5. HAWQ性能指标怎么样?这里有篇Pivotal自测的博文https://content.pivotal.io/blog/pivotal-hawq-benchmark-demonstrates-up-to-21x-faster-performance-on-hadoop-queries-than-sql-like-solutions,号称压倒impala,不过针对本篇博文的题目,我支持GreenPlum!
  6. 有公司基于HAWQ提供商业服务:http://www.hashdata.cn;也有公司基于GreenPlum提供商业服务:http://vitessedata.com/deepgreen-db
大家如果还有其他想要了解的,记得留言哦,回头抽空补上:)

本文来自网易云社区,经作者何李夫授权发布。

原文地址:【大数据之数据仓库】HAWQ versus GreenPlum

更多网易研发、产品、运营经验分享请访问网易云社区

【大数据之数据仓库】HAWQ versus GreenPlum的更多相关文章

  1. 【大数据之数据仓库】GreenPlum优化器对比测试

    在< [大数据之数据仓库]选型流水记>一文中有提及,当时没有测试GreenPlum的quicklz压缩算法和ORCA查询优化器,考虑到quicklz压缩算法因为版权问题不会开源(详情请参阅 ...

  2. 【大数据之数据仓库】安装部署GreenPlum集群

    本篇将向大家介绍如何快捷的安装部署GreenPlum测试集群,大家可以跟着我一块儿实践一把^_^ 1.主机资源 申请2台网易云主机,操作系统必须是RedHat或者CentOS,配置尽量高一点.如果是s ...

  3. 【大数据之数据仓库】GreenPlum PK DeepGreen(TPCH)

    1.背景 一张UML类图可以简单的说明GreenPlum和DeepGreen之间的关系: GreenPlum: 主页:http://greenplum.org/ 源码:开源,https://githu ...

  4. 【大数据之数据仓库】kudu性能测试报告分析

    本文由  网易云发布. 这篇博文主要的内容不是分析说明kudu的性能指标情况,而是分析为什么kudu的scan性能会这么龊!当初对外宣传可是加了各种 逆天黑科技的呀:列独立存储.bloom filte ...

  5. 论各类BI工具的“大数据”特性!

    市面上的BI工具形形色色,功能性能包装得十分亮丽,但实际应用中我们往往更关注的是朴实的技术特性和解决方案.对于大数据,未来的应用趋势不可抵挡,很多企业也正存在大数据分析处理展现的需求,以下我们列举市面 ...

  6. DW(一):大数据DW架构参考

    DW一直以来是企业信息与决策支持系统的核心组件,随着各类日志.社交.传感等非结构化数据的加入,企业内部数据按指数级增长,传统DW已经达到一个关键临界点——需要大量的资源投入到硬件.优化.支持和维护中, ...

  7. 关于BI商业智能的“8大问”|一文读懂大数据BI

    这里不再阐述商业智能的概念了,关于BI,就从过往的了解,搜索以及知乎的一些问答,大家困惑的点主要集中于大数据与BI的关系,BI的一些技术问题,以及BI行业和个人职业前景的发展.这里归纳成8个问题点,每 ...

  8. 大数据体系概览Spark、Spark核心原理、架构原理、Spark特点

    大数据体系概览Spark.Spark核心原理.架构原理.Spark特点 大数据体系概览(Spark的地位) 什么是Spark? Spark整体架构 Spark的特点 Spark核心原理 Spark架构 ...

  9. [DB] 大数据概述

    什么是大数据 电商推荐系统 大量订单如何存储(十年) 大量的订单如何计算(不关心算法) 天气预报 大量的天气数据如何存储 大量天气数据如何计算 核心问题 数据的存储:分布式文件系统(HDFS) 数据的 ...

随机推荐

  1. PL/SQL 训练13--plsql 优化

    --数据缓存技术 --PGA和SGA---SGA:系统全局区域--PGA:Process Global Area是为每个连接到Oracle的用户进程保留的内存. ---PLSQL从PGA获取信息的速度 ...

  2. linux 输入子系统之电阻式触摸屏驱动

    一.输入子系统情景回忆ING...... 在Linux中,输入子系统是由输入子系统设备驱动层.输入子系统核心层(Input Core)和输入子系统事件处理层(Event Handler)组成.其中设备 ...

  3. PHP函数(一)-变量

    1.全局变量 <?php $a = 1; $b = 2; function test(){ echo $a + $b."<br>"; //运行结果为0 } tes ...

  4. oracle数据库中函数的递归调用

    如有下面的表结构AAAA,用一个字段prev_id表示记录的先后顺序,要对其排序,需要用的递归函数 ID PREV_ID CONT 99   a 23 54 d 21 23 e 54 33 c 33 ...

  5. C++学习路线(转载)

    随着互联网及互联网+深入蓬勃的发展,经过40余年的时间洗礼,C/C++俨然已成为一门贵族语言,出色的性能使之成为高级语言中的性能王者.而在今天,它又扮演着什么样重要的角色呢?请往下看: 后端服务器,移 ...

  6. delphi 四舍五入

    trunc取整 四舍五入 formatfloat('0.00', 2.1850) 看第二位,然后对后面的数字处理,偶数的话舍去,奇数四舍五入 System.Math.RoundTo(tempval,- ...

  7. 微信公众号php从0开发,包括功能(自定义菜单,分享)

    之前写的一篇微信公众号文章. 工作需要,进行此次调研,并记录开发过程. 开发目的,页面授权,页面获取用户头像,用户昵称 微信id, 分享页面. 微信订阅号 无法获取用户个人信息 写在记录前,公众号也是 ...

  8. 1&nbsp;任务管理&nbsp;&nbsp;--转载于电子工程世界

    uC/OS-II 中最多可以支持64 个任务,分别对应优先级0-63,其中0 为最高优先级.63为最低级,系统保留了4个最高优先级的任务和4个最低优先级的任务,所有用户可以使用的任务数有56个. uC ...

  9. 在linux中获取错误返回信息&nbsp;&amp;…

    #include // void perror(const char *msg); #include // char *strerror(int errnum); #include //errno e ...

  10. canvas二进制字符下落

      ?   1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 3 ...