一、DW2.0从企业的角度,吸引企业的原因:

1.数据仓库基础设施的成本不再持续增长。在第一代数据仓库中,技术基础设施的成本是不断增长的,随着数据量的增长,基础设施的成本会以指数级增长。但是使用DW2.0,数据仓库的这一成本会趋于平稳。

2.使用元数据将基础设施结合在一起,这意味着数据不会轻易丢失。在第一代数据仓库中,一个数据单元或一个数据类型是很容易“丢失”的。这就像纽约市立图书馆书架上的一本书摆错了位置一样,一旦摆错位置,可能需要若干年才能将其放回容易被人们找到的位置。第一代数据仓库环境下的数据也是如此。而作为DW2.0骨干的元数据则不会令数据轻易丢失。

3.数据访问速度快。数据根据其访问概率放置,因此它的数据访问性能比第一代数据仓库环境更为有效

4.存档需求的关注。第一代数据仓库中很少有甚至没有存档数据,因此数据只能存储相对较短的一段时间。而在DW2.0环境下,数据时被存档的,这样它就能够永久保存下去,或者视需要而定。

5.数据仓库吸引大量的数据。DW2.0中数据是分段的,终端用户需要处理的数据量就会少得多。

二、 DW2.0与第一代数据仓库的区别:

1.dw2.0产生了对数据生命周期的认识

2.数据仓库中包含非结构化数据

3.dw2.0环境包含元数据

4.dw2.0的技术基础能够随着时间而变化

三、DW2.0数据生命周期

数据的生命周期:

第一代数据仓库:将数据存放在某种形式的磁盘存储器

第二代数据仓库:四个数据生命周期“分区”(如上图所示,可知DW2.0的数据结构)

交互区:数据存入数据仓库后迅速进入交互区。随着数据的调整,数据被整合后传递到整合区

整合区:整合的数据时在整合区被发现的,并且一直位于整合区,直至其访问概率下降。数据的访问概率往往会伴随着存储时间的增加而下降。通常情况下,3-4年后,整合区数据的访问概率会明显下降。

近线区:在许多方面,近线区就像是整合区的延伸。近线区是可以选择的,亦即数据不一定需要经过这一区,但是当数据量非常大并且数据间的访问概率差别很大时,就可以利用近线区来处理。

归档区:数据访问概率很低,数据可以从近线区也可以从整合区进入归档区。归档区的数据通常是5-10年,甚至更长。

DW2.0设置不同区的原因:

不同区之间区别的核心问题是:数据从一个区传递到另一个区时,数据的基本操作参数随之改变。

在区与区之间,数据的访问概率和访问模式差别很大。

交互区的数据被频繁访问,并且其访问模式是随机访问。

整合区数据的被访问概率也很高,但通常是顺序、成串的访问。

近线区的数据访问概率相对较低,并且在访问时是随机的。

归档区的数据很少被访问,它能够被顺序地、不定期地、随机地访问。

除了不同的访问模式外,不同的区在数据量上也有很明显的差别。交互区的数据量相对较小。整合区的数据较多。如果一个企业中完全是近线数据,那么近线区通常会有相当大数量的数据。归档区的数据也可能显著增长,即使最初几年收集的归档数据相对较少,但随着时间的推移,大量数据完全有可能聚集到归档区。

四、DW2.0 元数据

对于交互数据,元数据分开存储;对于归档数据,元数据与数据一起存储。

五、DW2.0非结构化数据

一般存在两种类型的数据:结构化数据和非结构化数据。

结构化数据:相同的格式和布局,存储在数据库记录中,记录中包含属性、键、索引、表格等。

非结构化数据:有两种基本形式---文本的和非文本的。

文本的非结构化数据出现在很多地方---电子邮件、电话交谈、幻灯片演示等。非文本的非结构化数据出现在诸如图形和图像里,包含不仅照片、X射线、核磁共振、图片、插图等等。

筛选“废话”仅仅是为DW2.0环境准备非结构化数据需要做的众多步骤中的第一步。

为DW2.0环境准备非格式化数据的第二个主要步骤是读取特定数据,并对特定数据添加一般数据,使得数据适合分析。做不到这点就是对时间和机会的浪费。

DW2.0的更多相关文章

  1. 转:DataSet、DataTable、DataRow、DataColumn区别及使用实例

    DataSet 表示数据在内存中的缓存. 属性 Tables  获取包含在 DataSet 中的表的集合. ds.Tables["sjxx"] DataTable 表示内存中数据的 ...

  2. DataSet、DataTable、DataRow、DataColumn区别及使用实例

    DataSet 表示数据在内存中的缓存. 属性 Tables  获取包含在 DataSet 中的表的集合. ds.Tables["sjxx"] DataTable 表示内存中数据的 ...

  3. 吴恩达课后作业学习1-week3-homework-one-hidden-layer

    参考:https://blog.csdn.net/u013733326/article/details/79702148 希望大家直接到上面的网址去查看代码,下面是本人的笔记 建立一个带有隐藏层的神经 ...

  4. 吴恩达课后作业学习2-week2-优化算法

    参考:https://blog.csdn.net/u013733326/article/details/79907419 希望大家直接到上面的网址去查看代码,下面是本人的笔记 我们需要做以下几件事:  ...

  5. Coursera Deep Learning 2 Improving Deep Neural Networks: Hyperparameter tuning, Regularization and Optimization - week2, Assignment(Optimization Methods)

    声明:所有内容来自coursera,作为个人学习笔记记录在这里. 请不要ctrl+c/ctrl+v作业. Optimization Methods Until now, you've always u ...

  6. Coursera Deep Learning 2 Improving Deep Neural Networks: Hyperparameter tuning, Regularization and Optimization - week1, Assignment(Regularization)

    声明:所有内容来自coursera,作为个人学习笔记记录在这里. Regularization Welcome to the second assignment of this week. Deep ...

  7. Neural Networks and Deep Learning(week3)Planar data classification with one hidden layer(基于单隐藏层神经网络的平面数据分类)

    Planar data classification with one hidden layer 你会学习到如何: 用单隐层实现一个二分类神经网络 使用一个非线性激励函数,如 tanh 计算交叉熵的损 ...

  8. [转]内存分配malloc, new , heapalloc

    malloc,new,VirtualAlloc,HeapAlloc性能(速度)比较 http://www.cppblog.com/woaidongmao/archive/2011/08/12/1531 ...

  9. 课程二(Improving Deep Neural Networks: Hyperparameter tuning, Regularization and Optimization),第二周(Optimization algorithms) —— 2.Programming assignments:Optimization

    Optimization Welcome to the optimization's programming assignment of the hyper-parameters tuning spe ...

随机推荐

  1. C#多线程编程之:Timer(定时器)使用示例

    Timer类:设置一个定时器,定时执行用户指定的函数.定时器启动后,系统将自动建立一个新的线程,执行用户指定的函数. 构造函数:Timer(TimerCallback callback, object ...

  2. mac下安装wxPython2.8.12.1方法

    搭建robot_framework 环境 找不到 wxPython2.8.12.1的解决方法 1.mac终端pip安装robotframework-ride后 启动ride.py报: wxPython ...

  3. [java]经验集

    Calendar c = Calendar.getInstance(); c.set(1999,12,21); SimpleDateFormat sdf = new SimpleDateFormat( ...

  4. elasticsearch 官方入门 及 API

    https://www.elastic.co/guide/en/elasticsearch/reference/current/_basic_concepts.html 入门地址 ElasticSea ...

  5. mysql-5null值处理

    值为null遇到的问题: 1.使用select对数据进行处理时,如果有格值为null,该命令会无法正常工作.如示例一 2.使用where限定条件时,null值不能处理.如示例二 -- 新建一张表,并填 ...

  6. 10-28质量监控ELK

    监控业务范围 app崩溃监控(Bugly) 应用性能监控(APM) 业务监控(TalkingData.友盟) 质量监控(缺位) 质量监控平台ELK elk官网 数据构造 线上错误状态分布 故障影响范围 ...

  7. [转]MongoDB随笔2:使用查询

    转自:http://www.cnblogs.com/yangecnu/archive/2011/07/16/2108450.html 一.通过查询获取数据 在深入讨论查询之前,首先来了解一下查询返回的 ...

  8. oracle事务知识点小结

    DML语句流程 1 获取事务锁和ITL2 锁定候选行3 生成redo4 生成undo5 生成redo record写入log buffer并更改数据块 事务提交1 分配SCN2 更新事务表,将事务槽状 ...

  9. 关于mysql 间隙锁

    前段时间系统老是出现update死锁,很是纠结.经过排查发现是间隙锁!间隙锁是innodb中行锁的一种, 但是这种锁锁住的却不止一行数据,他锁住的是多行,是一个数据范围.间隙锁的主要作用是为了防止出现 ...

  10. 用API处理位图

    procedure TForm1.Button1Click(Sender: TObject); var dc : hdc; MemDc : hdc; MemBitmap : hBitmap; OldM ...