一、DW2.0从企业的角度,吸引企业的原因:

1.数据仓库基础设施的成本不再持续增长。在第一代数据仓库中,技术基础设施的成本是不断增长的,随着数据量的增长,基础设施的成本会以指数级增长。但是使用DW2.0,数据仓库的这一成本会趋于平稳。

2.使用元数据将基础设施结合在一起,这意味着数据不会轻易丢失。在第一代数据仓库中,一个数据单元或一个数据类型是很容易“丢失”的。这就像纽约市立图书馆书架上的一本书摆错了位置一样,一旦摆错位置,可能需要若干年才能将其放回容易被人们找到的位置。第一代数据仓库环境下的数据也是如此。而作为DW2.0骨干的元数据则不会令数据轻易丢失。

3.数据访问速度快。数据根据其访问概率放置,因此它的数据访问性能比第一代数据仓库环境更为有效

4.存档需求的关注。第一代数据仓库中很少有甚至没有存档数据,因此数据只能存储相对较短的一段时间。而在DW2.0环境下,数据时被存档的,这样它就能够永久保存下去,或者视需要而定。

5.数据仓库吸引大量的数据。DW2.0中数据是分段的,终端用户需要处理的数据量就会少得多。

二、 DW2.0与第一代数据仓库的区别:

1.dw2.0产生了对数据生命周期的认识

2.数据仓库中包含非结构化数据

3.dw2.0环境包含元数据

4.dw2.0的技术基础能够随着时间而变化

三、DW2.0数据生命周期

数据的生命周期:

第一代数据仓库:将数据存放在某种形式的磁盘存储器

第二代数据仓库:四个数据生命周期“分区”(如上图所示,可知DW2.0的数据结构)

交互区:数据存入数据仓库后迅速进入交互区。随着数据的调整,数据被整合后传递到整合区

整合区:整合的数据时在整合区被发现的,并且一直位于整合区,直至其访问概率下降。数据的访问概率往往会伴随着存储时间的增加而下降。通常情况下,3-4年后,整合区数据的访问概率会明显下降。

近线区:在许多方面,近线区就像是整合区的延伸。近线区是可以选择的,亦即数据不一定需要经过这一区,但是当数据量非常大并且数据间的访问概率差别很大时,就可以利用近线区来处理。

归档区:数据访问概率很低,数据可以从近线区也可以从整合区进入归档区。归档区的数据通常是5-10年,甚至更长。

DW2.0设置不同区的原因:

不同区之间区别的核心问题是:数据从一个区传递到另一个区时,数据的基本操作参数随之改变。

在区与区之间,数据的访问概率和访问模式差别很大。

交互区的数据被频繁访问,并且其访问模式是随机访问。

整合区数据的被访问概率也很高,但通常是顺序、成串的访问。

近线区的数据访问概率相对较低,并且在访问时是随机的。

归档区的数据很少被访问,它能够被顺序地、不定期地、随机地访问。

除了不同的访问模式外,不同的区在数据量上也有很明显的差别。交互区的数据量相对较小。整合区的数据较多。如果一个企业中完全是近线数据,那么近线区通常会有相当大数量的数据。归档区的数据也可能显著增长,即使最初几年收集的归档数据相对较少,但随着时间的推移,大量数据完全有可能聚集到归档区。

四、DW2.0 元数据

对于交互数据,元数据分开存储;对于归档数据,元数据与数据一起存储。

五、DW2.0非结构化数据

一般存在两种类型的数据:结构化数据和非结构化数据。

结构化数据:相同的格式和布局,存储在数据库记录中,记录中包含属性、键、索引、表格等。

非结构化数据:有两种基本形式---文本的和非文本的。

文本的非结构化数据出现在很多地方---电子邮件、电话交谈、幻灯片演示等。非文本的非结构化数据出现在诸如图形和图像里,包含不仅照片、X射线、核磁共振、图片、插图等等。

筛选“废话”仅仅是为DW2.0环境准备非结构化数据需要做的众多步骤中的第一步。

为DW2.0环境准备非格式化数据的第二个主要步骤是读取特定数据,并对特定数据添加一般数据,使得数据适合分析。做不到这点就是对时间和机会的浪费。

DW2.0的更多相关文章

  1. 转:DataSet、DataTable、DataRow、DataColumn区别及使用实例

    DataSet 表示数据在内存中的缓存. 属性 Tables  获取包含在 DataSet 中的表的集合. ds.Tables["sjxx"] DataTable 表示内存中数据的 ...

  2. DataSet、DataTable、DataRow、DataColumn区别及使用实例

    DataSet 表示数据在内存中的缓存. 属性 Tables  获取包含在 DataSet 中的表的集合. ds.Tables["sjxx"] DataTable 表示内存中数据的 ...

  3. 吴恩达课后作业学习1-week3-homework-one-hidden-layer

    参考:https://blog.csdn.net/u013733326/article/details/79702148 希望大家直接到上面的网址去查看代码,下面是本人的笔记 建立一个带有隐藏层的神经 ...

  4. 吴恩达课后作业学习2-week2-优化算法

    参考:https://blog.csdn.net/u013733326/article/details/79907419 希望大家直接到上面的网址去查看代码,下面是本人的笔记 我们需要做以下几件事:  ...

  5. Coursera Deep Learning 2 Improving Deep Neural Networks: Hyperparameter tuning, Regularization and Optimization - week2, Assignment(Optimization Methods)

    声明:所有内容来自coursera,作为个人学习笔记记录在这里. 请不要ctrl+c/ctrl+v作业. Optimization Methods Until now, you've always u ...

  6. Coursera Deep Learning 2 Improving Deep Neural Networks: Hyperparameter tuning, Regularization and Optimization - week1, Assignment(Regularization)

    声明:所有内容来自coursera,作为个人学习笔记记录在这里. Regularization Welcome to the second assignment of this week. Deep ...

  7. Neural Networks and Deep Learning(week3)Planar data classification with one hidden layer(基于单隐藏层神经网络的平面数据分类)

    Planar data classification with one hidden layer 你会学习到如何: 用单隐层实现一个二分类神经网络 使用一个非线性激励函数,如 tanh 计算交叉熵的损 ...

  8. [转]内存分配malloc, new , heapalloc

    malloc,new,VirtualAlloc,HeapAlloc性能(速度)比较 http://www.cppblog.com/woaidongmao/archive/2011/08/12/1531 ...

  9. 课程二(Improving Deep Neural Networks: Hyperparameter tuning, Regularization and Optimization),第二周(Optimization algorithms) —— 2.Programming assignments:Optimization

    Optimization Welcome to the optimization's programming assignment of the hyper-parameters tuning spe ...

随机推荐

  1. 【python】使用HTMLParser、cookielib抓取和解析网页、从HTML文档中提取链接、图像、文本、Cookies

    一.从HTML文档中提取链接 模块HTMLParser,该模块使我们能够根据HTML文档中的标签来简洁.高效地解析HTML文档. 处理HTML文档的时候,我们常常需要从其中提取出所有的链接.使用HTM ...

  2. ASP.NET Web Pages

    ylbtech-.Net-ASP.NET Web Pages: 1.返回顶部   2.返回顶部   3.返回顶部   4.返回顶部   5.返回顶部     6.返回顶部   7.返回顶部   8.返 ...

  3. PHP实现连接设备、通讯和发送命令的方法

    这篇文章主要介绍了PHP实现连接设备.通讯和发送命令的方法,涉及php基于socket实现设备连接及数据通信的相关技巧,具有一定参考借鉴价值,需要的朋友可以参考下   本文实例讲述了PHP实现连接设备 ...

  4. alibaba fastjson的使用总结和心得

      最初接触alibaba fastjson是由于其性能上的优势,对比原来采用codehause.jackson的解析,在hadoop平台上的手动转换对象有着将近1/3的性能提升,但随着开发应用越来越 ...

  5. javascript中 关于eval的那些事

    javascript中的eval是一个非常灵活,但是灵活是伴随着风险的. 一.下面我们来看看那使用eval声明变量的问题. function test(x){ eval("var a=x;& ...

  6. Oracle11g 搭建单实例DataGuard (转载)

    原文:http://blog.itpub.net/29324876/viewspace-1246133/ 环境:主备库都为单实例并且数据库SID相同 OS:red hat 6.5 Oracle:11. ...

  7. MySQL转Oracle,MyBatis Mapper XML 文件修改项总结

    1.对于批量插入 需要更改成 <insert id="saveAll"> insert into(a,b,c) <foreach collection=" ...

  8. http中的Content-Type

    要学习content-type,必须事先知道它到底是什么,是干什么用的. HTTP协议(RFC2616)采用了请求/响应模型.客户端向服务器发送一个请求,请求头包含请求的方法.URI.协议版本.以及包 ...

  9. uva-10596-欧拉回路

    并不要求所有点都联通,只要出现的所有边能形成欧拉回路就行了 做成有向图的欧拉回路wa成了狗 #include <iostream> #include<memory.h> #in ...

  10. python 2.7中安装mysql

    在python中进行安装mysql模块,但是怎么都不能导入mysql模块,出错如下所示: [root@python ~]# python Python 2.7.11 (default, Apr 5 2 ...