HAWQ技术总结】的更多相关文章

HAWQ技术总结: 1. 官网: http://hawq.incubator.apache.org/ 2. 特性 2.1 sql支持完善 ANSI SQL标准,OLAP扩展,标准JDBC/ODBC支持. 2.2 具有MPP的性能. 2.3 支持外部数据整合. HAWQ能够访问HDFS上的Json文件.Hive.HBase等外部数据. 2.4 支持ACID事务. 这是很多现有基于SqlonHadoop引擎无法做到的,能够好的保证数据一致性. 3. 优缺点: 优点: * sql支持度好:目前能支持S…
一.HAWQ中的分区表        与大多数关系数据库一样,HAWQ也支持分区表.这里所说的分区表是指HAWQ的内部分区表,外部分区表在后面"外部数据"篇讨论. 在数据仓库应用中,事实表通常有非常多的记录,分区能够将这样的大表在逻辑上分为小的.更易管理的数据片段.HAWQ的优化器支持分区消除以提高查询性能. 仅仅要查询条件中能够使用分区键作为过滤条件.那么HAWQ仅仅须要扫描满足查询条件的分区,而不必进行全表扫描.        分区并不改变表数据在segment间的物理分布.表的分…
(原文地址:http://hawq.incubator.apache.org/docs/userguide/2.1.0.0-incubating/troubleshooting/Troubleshooting.html)        本章描写叙述怎样解决HAWQ系统中常见的错误和问题. 一.查询性能问题         问题:查询慢.        原因:一个查询执行缓慢可能有多个原因. 比如,数据分布的位置.虚拟段的数量.查询使用的主机数量等都可能影响查询性能. 下面过程描写叙述怎样排查查询…
        前面已经完毕了HAWQ的安装部署,也了解了HAWQ的系统架构与主要组件,以下開始使用它. HAWQ作为Hadoop上的一个服务提供给用户,与其他全部服务一样.最主要的操作就是启动.停止.重新启动服务.要完毕这些操作,须要适当的环境设置.以下就HAWQ管理的一些基础概念.操作环境.启动停止及其推荐的操作进行讨论. 一.基础概念        假设组织中能够做到系统管理与开发分离.那这部分内容严格说应该是HAWQ系统管理员所关心的.要利用好HAWQ集群,应该有一些Linux/UNIX…
一.层次维度简介 大多数维度都具有一个或多个层次.例如,示例数据仓库中的日期维度就有一个四级层次:年.季度.月和日.这些级别用date_dim表里的列表示.日期维度是一个单路径层次,因为除了年-季度-月-日这条路径外,它没有任何其它层次.为了识别数据仓库里一个维度的层次,首先要理解维度中列的含义,然后识别两个或多个列是否具有相同的主题.例如,年.季度.月和日具有相同的主题,因为它们都是关于日期的.具有相同主题的列形成一个组,组中的一列必须包含至少一个组内的其它成员(除了最低级别的列),如在前面提…
转自:http://blog.csdn.net/wzy0623/article/details/73650053 一.为什么要用到Flume 在以前搭建HAWQ数据仓库实验环境时,我使用Sqoop抽取从MySQL数据库增量抽取数据到HDFS,然后用HAWQ的外部表进行访问.这种方式只需要很少量的配置即可完成数据抽取任务,但缺点同样明显,那就是实时性.Sqoop使用MapReduce读写数据,而MapReduce是为了批处理场景设计的,目标是大吞吐量,并不太关心低延时问题.就像实验中所做的,每天定…
一.迟到的事实简介 数据仓库通常建立于一种理想的假设情况下,这就是数据仓库的度量(事实记录)与度量的环境(维度记录)同时出现在数据仓库中.当同时拥有事实记录和正确的当前维度行时,就能够从容地首先维护维度键,然后在对应的事实表行中使用这些最新的键.然而,各种各样的原因会导致需要ETL系统处理迟到的事实数据.例如,某些线下的业务,数据进入操作型系统的时间会滞后于事务发生的时间.再或者出现某些极端情况,如源数据库系统出现故障,直到恢复后才能补上故障期间产生的数据.        在销售订单示例中,晚于…
退化维度技术减少维度的数量,简化维度数据仓库模式.简单的模式比复杂的更容易理解,也有更好的查询性能.        有时,维度表中除了业务主键外没有其它内容.例如,在本销售订单示例中,订单维度表除了订单号,没有任何其它属性,而订单号是事务表的主键,这种维度就是退化维度.业务系统中的主键通常是不允许修改的.销售订单只能新增,不能修改已经存在的订单号,也不会删除订单记录.因此订单维度表也不会有历史数据版本问题.退化维度常见于事务和累计快照事实表中.        销售订单事实表中的每行记录都包括作为…
累积度量指的是聚合从序列内第一个元素到当前元素的数据,例如统计从每年的一月到当前月份的累积销售额.本篇说明如何在销售订单示例中实现累积月销售数量和金额,并对数据仓库模式.初始装载.定期装载做相应地修改.累积度量是半可加的,而且它的初始装载要复杂一些. 一.建立累积度量事实表 执行下面的脚本创建month_end_balance_fact事实表,用来存储销售订单金额和数量的月累积值. set search_path=tds; create table month_end_balance_fact…
一.无事实事实表简介 在多维数据仓库建模中,有一种事实表叫做"无事实的事实表".普通事实表中,通常会保存若干维度外键和多个数字型度量,度量是事实表的关键所在.然而在无事实的事实表中没有这些度量值,只有多个维度外键.表面上看,无事实事实表是没有意义的,因为作为事实表,毕竟最重要的就是度量.但在数据仓库中,这类事实表有其特殊用途.无事实的事实表通常用来跟踪某种事件或者说明某些活动的范围.        无事实的事实表可以用来跟踪事件的发生.例如,在给定的某一天中发生的学生参加课程的事件,可…