谈到GreenPlum,肯定会有同事说HAWQ!是的,在本系列第一篇选型流水记里,也有提到.因为对HAWQ接触有限,没有深入具体了解,所以很多信息都是来自于博文,人云亦云,我把看过的资料简要整理,希望对感兴趣的同事有一些帮助^_^ HAWQ的身世:https://www.pivotalguru.com/?p=1176,目前已经开源:http://hawq.incubator.apache.org/: HAWQ和GreenPlum的比较:https://www.pivotalguru.com/?p…
在< [大数据之数据仓库]选型流水记>一文中有提及,当时没有测试GreenPlum的quicklz压缩算法和ORCA查询优化器,考虑到quicklz压缩算法因为版权问题不会开源(详情请参阅: https://github.com/greenplum-db/gpdb/blob/master/src/backend/catalog/quicklz_compression.c),今天我们就来补上已开源的ORCA查询优化器这一段. GreenPlum有2个查询优化器:legacy query opti…
本篇将向大家介绍如何快捷的安装部署GreenPlum测试集群,大家可以跟着我一块儿实践一把^_^ 1.主机资源 申请2台网易云主机,操作系统必须是RedHat或者CentOS,配置尽量高一点.如果是sa统一初始化的物理机,这里不再描述,因为中间有很多操作(比如关闭puppet服务等等) 2.下载安装包 下载链接: https://network.pivotal.io/products/pivotal-gpdb,需要先注册才能下载,建议用非163邮箱注册:(下载困难可以泡泡找我) 3.开始安装 以…
1.背景 一张UML类图可以简单的说明GreenPlum和DeepGreen之间的关系: GreenPlum: 主页:http://greenplum.org/ 源码:开源,https://github.com/greenplum-db/gpdb, DeepGreen: 主页:http://vitessedata.com/deepgreen-db 源码:不开源,安装包:http://vitessedata.com/deepgreen-db-download DeepGreen官方宣传的优势: 事…
本文由  网易云发布. 这篇博文主要的内容不是分析说明kudu的性能指标情况,而是分析为什么kudu的scan性能会这么龊!当初对外宣传可是加了各种 逆天黑科技的呀:列独立存储.bloom filter.压缩.原地修改.b+tree.mvcc ... ... 这里先贴个kudu和parquet小部分的TPCDS测试结果对比图吧: 没有对比就没有伤害,有了对比就有了乐趣.纵坐标是耗时,单位是秒,代表kudu的黄色柱子太高了,说人话就是kudu耗时太 长,性能太差! 老大:为什么kudu性能会这么差…
市面上的BI工具形形色色,功能性能包装得十分亮丽,但实际应用中我们往往更关注的是朴实的技术特性和解决方案.对于大数据,未来的应用趋势不可抵挡,很多企业也正存在大数据分析处理展现的需求,以下我们列举市面上主流的三款BI系统,就“大数据”特性展开探讨,主要是与Hadoop.Spark.多维分析数据库的对接和性能. Tableau的大数据策略 1.目前,Tableau适用的大数据生态系统连接包括: Hadoop:Cloudera Impala 和 Hive.Hortonworks Hive.MapR…
DW一直以来是企业信息与决策支持系统的核心组件,随着各类日志.社交.传感等非结构化数据的加入,企业内部数据按指数级增长,传统DW已经达到一个关键临界点——需要大量的资源投入到硬件.优化.支持和维护中,当前大部分使用Apache Hadoop来处理各种来源的大数据,但传统数据仓库不允许最终用户查询非结构化数据,此外,传统数据仓库并没有针对低延迟大容量数据负载和高吞吐量复杂分析工作负载进行优化——而这是大数据的需求之一. 下面例举当前互联网行业基于大数据的数据仓库技术构架参考 目录: 大数据DW逻辑…
这里不再阐述商业智能的概念了,关于BI,就从过往的了解,搜索以及知乎的一些问答,大家困惑的点主要集中于大数据与BI的关系,BI的一些技术问题,以及BI行业和个人职业前景的发展.这里归纳成8个问题点,每个问题都做了精心的解答,希望能给大家带来帮助. 问题1:商业智能BI和大数据是什么关系,如何选择? BI(BusinessIntelligence)即商业智能,它是一套完整的解决方案,用来将企业中现有的数据进行有效的整合,快速准确的提供报表并提出决策依据,帮助企业做出明智的业务经营决策. 大数据(B…
大数据体系概览Spark.Spark核心原理.架构原理.Spark特点 大数据体系概览(Spark的地位) 什么是Spark? Spark整体架构 Spark的特点 Spark核心原理 Spark架构原理 spark内核架构 RDD及其特点 Spark SQL VS Hive Spark Streaming VS Storm spark 任务提交流程 小提示:这里,使用axure(原型制作工具),来画图十分方便,个人认为比viso或者是processon等流程图制作工具简单多了. 点击链接,看取…
什么是大数据 电商推荐系统 大量订单如何存储(十年) 大量的订单如何计算(不关心算法) 天气预报 大量的天气数据如何存储 大量天气数据如何计算 核心问题 数据的存储:分布式文件系统(HDFS) 数据的计算:分布式计算(MapReduce.Spark RDD) 数据仓库 传统方式:搭建数据仓库(Data Warehouse)解决大数据问题 数据仓库就是一个数据库(Oracle.MySQL.MS) Oracle DBCA 一般只做查询(select) 大数据也是一般只做查询(分析,不修改数据) Ha…