HIVE- SCD缓慢变化

SCD缓慢变化维，比如一个用户维表，用户属性会变化，但是不会变化很剧烈，可能一年只会变化一两次，也不会所有用户的属性都会有变化，只有少量的数据发生变化，所以叫缓慢变化维。这种问题就是由于维度的变化所造成的。

解决方式：

是否保留历史数据
保留多久历史数据
历史状态如何与事实表关联

SCD1 保留最新状态

注册日期	用户编号	手机号码
2019-01-01	0001	111111
2019-01-01	0002	222222
2019-01-01	0003	333333
2019-01-01	0004	444444

注册日期	用户编号	手机号码	备注
2019-01-01	0001	111111	111111
2019-01-01	0002	233333	（由22222变成23333）
2019-01-01	0003	333333
2019-01-01	0004	433333	（由44444变成43333）
2019-01-02	0005	555555	（2019-01-02新增）

缺点：没有任何历史状态，历史发生的事情无法追溯，企业中不关心历史状态的数据，可以使用SCD1

SCD2 保留所有历史状态

注册日期	用户编号	手机号码
2019-01-01	0001	111111
2019-01-01	0002	222222
2019-01-01	0003	333333
2019-01-01	0004	444444

注册日期	用户编号	手机号码	t_start_date	t_end_date
2019-01-01	0001	111111	2019-01-01	9999-12-31
2019-01-01	0002	233333	2019-01-01	9999-12-31
2019-01-01	0003	333333	2019-01-01	2019-01-01
2019-01-01	0003	344444	2019-01-02	9999-12-31
2019-01-01	0004	433333	2019-01-01	9999-12-31
2019-01-02	0005	555555	2019-01-01	9999-12-31

出现问题：同一个用户编号的数据出现多次,与事实表关联时，每个订单就会被关联出多条记录，肯定会出错。

解决办法：加上时间限制条件，订单生成时间在用户表有效期内数据才做关联。

SCD3 只保留了最后一次变化记录，综合了SCD1和SCD2

注册日期	用户编号	手机号码
2019-01-01	0001	111111
2019-01-01	0002	222222
2019-01-01	0003	333333
2019-01-01	0004	444444

注册日期	用户编号	手机号码	先前手机号码
2019-01-01	0001	133333	111111
2019-01-01	0002	233333	222222
2019-01-01	0003	333333
2019-01-01	0004	444444

HIVE实现SCD2

如果关注历史状态基本上用SCD2，如果不关注历史状态就用SCD1，SCD3用得比较少。

SCD2

1，代理键：HIVE中如何实现自增ID

2，如何设计有效期时间

代理键的作用：给下表加一个代理ID，对于一个用户来说，如果状态发生3次变化，在这个表里有3条记录，分别有一个不同的ID。用代理键ID解决有效期问题。

除了在维表中有代理ID，在事实表里也会把用户ID用代理ID替换。关联的时候就不会出现数据重复的问题，就不需要根据有效期无能去做统计了。

注册日期	用户编号	手机号码	t_start_date	t_end_date
2019-01-01	0001	111111	2019-01-01	9999-12-31
2019-01-01	0002	233333	2019-01-01	9999-12-31
2019-01-01	0003	333333	2019-01-01	2019-01-01
2019-01-01	0003	344444	2019-01-02	9999-12-31
2019-01-01	0004	433333	2019-01-01	9999-12-31
2019-01-02	0005	555555	2019-01-01	9999-12-31

有效期开始时间设计成一个很小的时间，在业务开始之前的时间；

有效期终止时间设计成一个非常大的值，一个固定的值。

Hive中的自增ID

利用row_number()
org.apache.hadoop.hive.contrib.udf.UDFRowSequence

利用row_number()

select row_number() over(order by empno), empno from emp;

利用org.apache.hadoop.hive.contrib.udf.UDFRowSequence

hdfs dfs -mkdir /user/hive/lib

hdfs dfs -put ${HIVE_HOME}/lib/hive-contrib-1.2.1.jar  /user/hive/lib/

添加Hive函数

hive>create temporary function row_sequence as 'org.apache.hadoop.hive.contrib.udf.UDFSequence';

hive>select row_sequence(), empno from emp limit 10;

添加Hive永久函数

hive>create function row_sequence as 'org.apache.hadoop.hive.contrib.udf.UDFSequence' using jar 'hdfs:///user/hive/lib/hive-contrib-1.2.1.jar';

准备数据

1,张三,US,CA

2,李四,US,CB

3,王五,CA,BB

4,赵六,CA,BC

5,老刘,AA,AA

创建用户表

-- 可以建成分区表 ,使用文本文件存储格式，因为后面用load加载数据，parquet格式的不支持

drop table if exists ods_user_update;

create table ods_user_update (

    user_id INT,

    name STRING,

    cty STRING,

    st STRING

)

COMMENT '每日用户更新表'

ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' LINES TERMINATED BY '\n'

建立用户维度表

-- 建立维度表 ,数据不能从外部文件加载，只能从一个hive表加载

create database test;

use test;

drop table if exists dim_user;

CREATE TABLE dim_user (

    surr_user_id bigint,

    user_id INT,

    name STRING,

    cty STRING,

    st STRING,

    version INT,

    ver_start_date DATE,

    ver_end_date DATE)

COMMENT '每日维度表'

ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' LINES TERMINATED BY '\n'

STORED AS parquet

;

加载初始数据

-- parquet 的表不支持load 数据加载方式

load data local inpath '/root/test/user.txt' overwrite into table ods_user_update;

用户维度表加载初始数据

INSERT  INTO dim_user

SELECT

    ROW_NUMBER() OVER (ORDER BY ods_user_update.user_id) + t2.sk_max,

    ods_user_update.*,

    1,

    CAST('1900-01-01' AS DATE),

    CAST('2200-01-01' AS DATE)

from ods_user_update CROSS JOIN (SELECT COALESCE(MAX(surr_user_id),0) sk_max FROM dim_user) t2;

更新维度表的数据

SET hivevar:pre_date = DATE_ADD(CURRENT_DATE(),-1);

SET hivevar:max_date = CAST('2200-01-01' AS DATE);

load data local inpath '/root/test/user_update.txt' overwrite into table ods_user_update;

INSERT OVERWRITE TABLE dim_user

SELECT * FROM

(

SELECT A.surr_user_id,

    A.user_id,A.name,a.cty,a.st,a.version,

    A.ver_start_date,

    CASE

      WHEN B.user_id IS NOT NULL  and A.ver_end_date = ${hivevar:max_date}  then ${hivevar:pre_date}

      ELSE cast(A.ver_end_date as string)

    END AS ver_end_date

FROM dim_user AS A LEFT JOIN ods_user_update AS B

ON A.user_id = B.user_id

UNION

select ROW_NUMBER() OVER (ORDER BY C.user_id) + D.sk_max,

    c.user_id,c.name,c.cty,C.st,

    0,

    ${hivevar:pre_date} AS ver_start_date,

    ${hivevar:max_date} AS ver_end_date

from ods_user_update as C cross join (SELECT COALESCE(MAX(surr_user_id),0) sk_max FROM dim_user)  D

) AS T

;

HIVE- SCD缓慢变化的更多相关文章

ODI 11g & 12c中缓慢变化维（SCD）的处理机制
缓慢变化维(Slowly changing Dimensions)指的是维表中的维度字段值会随着时间或业务调整,而在后续的分析中,历史数据仍然要使用旧的维度值,新的数据会使用当前维度值.在数据仓库建设 ...
缓慢变化维 (Slowly changing dimension)
维度建模的数据仓库中,有一个概念叫Slowly Changing Dimensions,中文一般翻译成"缓慢变化维",经常被简写为SCD.缓慢变化维的提出是因为在现实世 ...
缓慢变化维 (Slowly Changing Dimension) 常见的三种类型及原型设计（转）
开篇介绍在从 OLTP 业务数据库向 DW 数据仓库抽取数据的过程中,特别是第一次导入之后的每一次增量抽取往往会遇到这样的问题:业务数据库中的一些数据发生了更改,到底要不要将这些变化也反映到数据仓库 ...
DataStage系列教程（Slowly Changing Dimension）缓慢变化维
BI中维表的增量更新一般有2种: Type 1:覆盖更改.记录的列值发生变化,直接update成最新记录. Type 2:历史跟踪更改.记录值发生变化,将该记录置为失效,再insert一条新的记录. ...
DIV宽度自动缓慢变化
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content ...
使用CSS3的“transition ”属性控制长宽度的缓慢变化
有时候我们可能会想要改变某个资源信息的长宽度,比如改变某个div的宽度,而且需要让这个宽度缓慢改变,而不是突然就改变了.这时候你可能会想到使用jquery的animate()函数,不过这个方法既得引用 ...
如何用SQL语句处理缓慢变化维（渐变维，拉链表）SCD-2？
假设有一张居民维表,需要记录居民状态的变更历史,根据Kimball建模理论,设计居民维表如下: 另外在ODS中有居民信息的每日快照表(每天都记录一份居民的全量信息):O_USERINFO 如何将ODS ...
收集hive优化解决方案
hive的优化问题1.启动一次JOB尽可能多做事,尽量减少job的数量.能重用就重用,要设计好的模型.2.合理设置reduce个数,reduce个数过多,会造成大量小文件问题.3.使用hive.exe ...
如何实现Qlikview的增量数据加载
笔者备注: 刚刚接错Qlikview,上网搜集的资料,如何处理增量数据. 1 寻找增量时间戳(1)各种数据库:表的创建时间字段和修改时间字段或者最后的修改时间字段:(2)sql server:可以用找 ...

随机推荐

【Double】double精度问题和int、long除不尽取舍问题
看了老半天,真心没搞懂,留下几篇文章,后面继续跟进吧.... 一.如何理解double精度丢失问题? - 知乎 https://www.zhihu.com/question/42024389/answ ...
ZOJ 3941 Kpop Music Party（省赛, 贪心）
Kpop Music Party Time Limit: 2 Seconds Memory Limit: 65536 KB Marjar University often hosts Kpo ...
Oracle中sql相关的命令
1.创建用户 SQL> -- 例如创建一个用户名为xiaoming,密码为a123的用户 SQL> create user xiaomingidentified by a123; 用户已创 ...
phalcon—— PHP基础知识(一)
一.变量和常量 1.1.变量名(标示符) 1)变量:$开头标志 2)变量名:能够由字母.数字,_ 3者组成,不能用数字开头 3)标识符是区分大写和小写的.但函数名不区分大写和小写. 4)变量名称能够与 ...
信息安全意识教育日历——By 安全牛
安全牛:企业即使投入再好的信息安全技术和产品,也难以解决内部威胁以及社会工程等攻击手段,无法做到全面有效地保护企业信息资产.而通过开展员工的信息安全意识培训教育工作,不仅能降低企业风险.满足合规要求, ...
android studio中取消关联git
Android studio取消关联Git 步骤如下 settings->version control 这里是已经取消关联的如果关联按住减号即可
Android学习十---Android Camera
Android camera用来拍照和拍摄视频的先看一下最后实现的效果图最后的效果图一.准备在你的应用程序上使用android拍照设备,需要考虑以下几个方面 1. 是否是 ...
python中的闭包是什么
当一个嵌套函数在其外部区域引用了一个值时,该嵌套函数就是一个闭包,其意义就是会记录这个值 def A(x): def B(): print(x) return B A(7)() #7
如何判断某String是否经过urlEncoder.encode过
import java.util.BitSet; public class UrlEncoderUtils { private static BitSet dontNeedEncoding; stat ...
Building an FTP Test Plan
参考:http://jmeter.apache.org/usermanual/build-ftp-test-plan.html 1.创建一个线程组 2.线程组--->添加--->配置元件- ...

HIVE- SCD缓慢变化

HIVE实现SCD2

HIVE- SCD缓慢变化的更多相关文章

随机推荐

热门专题