DW2.0
一、DW2.0从企业的角度,吸引企业的原因:
1.数据仓库基础设施的成本不再持续增长。在第一代数据仓库中,技术基础设施的成本是不断增长的,随着数据量的增长,基础设施的成本会以指数级增长。但是使用DW2.0,数据仓库的这一成本会趋于平稳。
2.使用元数据将基础设施结合在一起,这意味着数据不会轻易丢失。在第一代数据仓库中,一个数据单元或一个数据类型是很容易“丢失”的。这就像纽约市立图书馆书架上的一本书摆错了位置一样,一旦摆错位置,可能需要若干年才能将其放回容易被人们找到的位置。第一代数据仓库环境下的数据也是如此。而作为DW2.0骨干的元数据则不会令数据轻易丢失。
3.数据访问速度快。数据根据其访问概率放置,因此它的数据访问性能比第一代数据仓库环境更为有效
4.存档需求的关注。第一代数据仓库中很少有甚至没有存档数据,因此数据只能存储相对较短的一段时间。而在DW2.0环境下,数据时被存档的,这样它就能够永久保存下去,或者视需要而定。
5.数据仓库吸引大量的数据。DW2.0中数据是分段的,终端用户需要处理的数据量就会少得多。
二、 DW2.0与第一代数据仓库的区别:
1.dw2.0产生了对数据生命周期的认识
2.数据仓库中包含非结构化数据
3.dw2.0环境包含元数据
4.dw2.0的技术基础能够随着时间而变化
三、DW2.0数据生命周期
数据的生命周期:
第一代数据仓库:将数据存放在某种形式的磁盘存储器
第二代数据仓库:四个数据生命周期“分区”(如上图所示,可知DW2.0的数据结构)
交互区:数据存入数据仓库后迅速进入交互区。随着数据的调整,数据被整合后传递到整合区
整合区:整合的数据时在整合区被发现的,并且一直位于整合区,直至其访问概率下降。数据的访问概率往往会伴随着存储时间的增加而下降。通常情况下,3-4年后,整合区数据的访问概率会明显下降。
近线区:在许多方面,近线区就像是整合区的延伸。近线区是可以选择的,亦即数据不一定需要经过这一区,但是当数据量非常大并且数据间的访问概率差别很大时,就可以利用近线区来处理。
归档区:数据访问概率很低,数据可以从近线区也可以从整合区进入归档区。归档区的数据通常是5-10年,甚至更长。
DW2.0设置不同区的原因:
不同区之间区别的核心问题是:数据从一个区传递到另一个区时,数据的基本操作参数随之改变。
在区与区之间,数据的访问概率和访问模式差别很大。
交互区的数据被频繁访问,并且其访问模式是随机访问。
整合区数据的被访问概率也很高,但通常是顺序、成串的访问。
近线区的数据访问概率相对较低,并且在访问时是随机的。
归档区的数据很少被访问,它能够被顺序地、不定期地、随机地访问。
除了不同的访问模式外,不同的区在数据量上也有很明显的差别。交互区的数据量相对较小。整合区的数据较多。如果一个企业中完全是近线数据,那么近线区通常会有相当大数量的数据。归档区的数据也可能显著增长,即使最初几年收集的归档数据相对较少,但随着时间的推移,大量数据完全有可能聚集到归档区。
四、DW2.0 元数据
对于交互数据,元数据分开存储;对于归档数据,元数据与数据一起存储。
五、DW2.0非结构化数据
一般存在两种类型的数据:结构化数据和非结构化数据。
结构化数据:相同的格式和布局,存储在数据库记录中,记录中包含属性、键、索引、表格等。
非结构化数据:有两种基本形式---文本的和非文本的。
文本的非结构化数据出现在很多地方---电子邮件、电话交谈、幻灯片演示等。非文本的非结构化数据出现在诸如图形和图像里,包含不仅照片、X射线、核磁共振、图片、插图等等。
筛选“废话”仅仅是为DW2.0环境准备非结构化数据需要做的众多步骤中的第一步。
为DW2.0环境准备非格式化数据的第二个主要步骤是读取特定数据,并对特定数据添加一般数据,使得数据适合分析。做不到这点就是对时间和机会的浪费。
DW2.0的更多相关文章
- 转:DataSet、DataTable、DataRow、DataColumn区别及使用实例
DataSet 表示数据在内存中的缓存. 属性 Tables 获取包含在 DataSet 中的表的集合. ds.Tables["sjxx"] DataTable 表示内存中数据的 ...
- DataSet、DataTable、DataRow、DataColumn区别及使用实例
DataSet 表示数据在内存中的缓存. 属性 Tables 获取包含在 DataSet 中的表的集合. ds.Tables["sjxx"] DataTable 表示内存中数据的 ...
- 吴恩达课后作业学习1-week3-homework-one-hidden-layer
参考:https://blog.csdn.net/u013733326/article/details/79702148 希望大家直接到上面的网址去查看代码,下面是本人的笔记 建立一个带有隐藏层的神经 ...
- 吴恩达课后作业学习2-week2-优化算法
参考:https://blog.csdn.net/u013733326/article/details/79907419 希望大家直接到上面的网址去查看代码,下面是本人的笔记 我们需要做以下几件事: ...
- Coursera Deep Learning 2 Improving Deep Neural Networks: Hyperparameter tuning, Regularization and Optimization - week2, Assignment(Optimization Methods)
声明:所有内容来自coursera,作为个人学习笔记记录在这里. 请不要ctrl+c/ctrl+v作业. Optimization Methods Until now, you've always u ...
- Coursera Deep Learning 2 Improving Deep Neural Networks: Hyperparameter tuning, Regularization and Optimization - week1, Assignment(Regularization)
声明:所有内容来自coursera,作为个人学习笔记记录在这里. Regularization Welcome to the second assignment of this week. Deep ...
- Neural Networks and Deep Learning(week3)Planar data classification with one hidden layer(基于单隐藏层神经网络的平面数据分类)
Planar data classification with one hidden layer 你会学习到如何: 用单隐层实现一个二分类神经网络 使用一个非线性激励函数,如 tanh 计算交叉熵的损 ...
- [转]内存分配malloc, new , heapalloc
malloc,new,VirtualAlloc,HeapAlloc性能(速度)比较 http://www.cppblog.com/woaidongmao/archive/2011/08/12/1531 ...
- 课程二(Improving Deep Neural Networks: Hyperparameter tuning, Regularization and Optimization),第二周(Optimization algorithms) —— 2.Programming assignments:Optimization
Optimization Welcome to the optimization's programming assignment of the hyper-parameters tuning spe ...
随机推荐
- 【python】使用HTMLParser、cookielib抓取和解析网页、从HTML文档中提取链接、图像、文本、Cookies
一.从HTML文档中提取链接 模块HTMLParser,该模块使我们能够根据HTML文档中的标签来简洁.高效地解析HTML文档. 处理HTML文档的时候,我们常常需要从其中提取出所有的链接.使用HTM ...
- ASP.NET Web Pages
ylbtech-.Net-ASP.NET Web Pages: 1.返回顶部 2.返回顶部 3.返回顶部 4.返回顶部 5.返回顶部 6.返回顶部 7.返回顶部 8.返 ...
- PHP实现连接设备、通讯和发送命令的方法
这篇文章主要介绍了PHP实现连接设备.通讯和发送命令的方法,涉及php基于socket实现设备连接及数据通信的相关技巧,具有一定参考借鉴价值,需要的朋友可以参考下 本文实例讲述了PHP实现连接设备 ...
- alibaba fastjson的使用总结和心得
最初接触alibaba fastjson是由于其性能上的优势,对比原来采用codehause.jackson的解析,在hadoop平台上的手动转换对象有着将近1/3的性能提升,但随着开发应用越来越 ...
- javascript中 关于eval的那些事
javascript中的eval是一个非常灵活,但是灵活是伴随着风险的. 一.下面我们来看看那使用eval声明变量的问题. function test(x){ eval("var a=x;& ...
- Oracle11g 搭建单实例DataGuard (转载)
原文:http://blog.itpub.net/29324876/viewspace-1246133/ 环境:主备库都为单实例并且数据库SID相同 OS:red hat 6.5 Oracle:11. ...
- MySQL转Oracle,MyBatis Mapper XML 文件修改项总结
1.对于批量插入 需要更改成 <insert id="saveAll"> insert into(a,b,c) <foreach collection=" ...
- http中的Content-Type
要学习content-type,必须事先知道它到底是什么,是干什么用的. HTTP协议(RFC2616)采用了请求/响应模型.客户端向服务器发送一个请求,请求头包含请求的方法.URI.协议版本.以及包 ...
- uva-10596-欧拉回路
并不要求所有点都联通,只要出现的所有边能形成欧拉回路就行了 做成有向图的欧拉回路wa成了狗 #include <iostream> #include<memory.h> #in ...
- python 2.7中安装mysql
在python中进行安装mysql模块,但是怎么都不能导入mysql模块,出错如下所示: [root@python ~]# python Python 2.7.11 (default, Apr 5 2 ...