市场研究公司Forrester副总裁Erin Kinikin曾经把低劣的数据质量做了一个形象的比喻“用更好的方法访问劣质的数据,结果类似于把已经腐烂了的桃子用更快的卡车,走更好的路线运输到达市场时,桃子仍然是腐烂的.”质量低劣的数据带给我们的不仅仅是报表数据的错误,更危险的是它可能会导致决策的偏离. 随着数据质量问题渐渐被广泛地关注,我们为了降低和避免低劣的数据质量带来的影响和危害,通常在ETL(抽取.转换和加载)过程中增加了数据清洁的步骤,这样一来ETL就变成了ECTL(抽取.清洁.转换和加载…
阅读目录 前言 创建数据仓库 ETL:抽取.转换.加载 OLAP/BI工具 数据立方体(Data Cube) OLAP的架构模式 小结 回到顶部 前言 上一篇重点讲解了数据仓库建模,它是数据仓库开发中最核心的部分.然而完整的数据仓库系统还会涉及其他一些组件的开发,其中最主要的是ETL工程,在线分析处理工具(OLAP)和商务智能(BI)应用等. 本文将对这些方面做一个总体性的介绍(尤其是OLAP),旨在让读者对数据仓库的认识提升到一个全局性的高度. 回到顶部 创建数据仓库 数据仓库的创建方法和数据…
通过执行多种数据剖析规则,对目标表(或一段SQL语句)进行数据质量探查,从而得到其数据质量情况.目前支持以下几种数据剖析类型,分别是:数字值分析.值匹配检查.字符值分析.日期值分析.布尔值分析.重复值检查.表达式匹配.参照完整性检查.值分布分析.数据剖析完成后可以通过日志中的链接查看其产生的剖析报告.数据剖析任务可以加入到作业流程中,以支持日常的增量数据探查,任务执行完后每个剖析规则均会返回剖析结果变量,可根据变量的值进行下一步的操作,比如发邮件通知数据的维护人员. 1.) 设定剖析规则 在任务…
提到格里芬-Griffin,大家想到更多的是篮球明星或者战队名,但在大数据领域Apache Griffin(以下简称Griffin)可是数据质量领域响当当的一哥.先说一句:Griffin是大数据质量监控领域唯一的Apache项目,懂了吧. ​ 在不重视数据质量的大数据发展时期,Griffin并不能引起重视,但是随着数据治理在很多企业的全面开展与落地,数据质量的问题开始引起重视. ​ 还是那句话,商用版的解决方案暂时不在本文的讨论范围内,目前大数据流动公众号对于数据治理工具的研究还是在开源方向,希…
使用Pandas创建数据透视表 本文转载自:蓝鲸的网站分析笔记 原文链接:使用Pandas创建数据透视表 目录 pandas.pivot_table() 创建简单的数据透视表 增加一个行维度(index) 增加一个值变量(value) 更改数值汇总方式 增加数值汇总方式 增加一个列维度(columns) 增加多个列维度 增加数据汇总值 数据透视表是Excel中最常用的数据汇总工具,它可以根据一个或多个制定的维度对数据进行聚合.在python中同样可以通过pandas.pivot_table函数来…
(转载)http://blog.csdn.net/bhq2010/article/details/7376352 需要在mysql中插入2000万条记录,用insert语句插入速度很有限,每秒钟几百条,放在hadoop集群上跑也是这个速度,可能是数据库的问题了,网上看到sql server和oracle的insert速度也不是很快.比较简单的优化方法如下: 1.在一条insert语句中插入多条记录 INSERT INTO tablename (field0, field1, ...) VALUE…
本篇文章内容来自2016年TOP100summit Microsoft资深产品经理邢国冬的案例分享.编辑:Cynthia 邢国冬(Tony Xing):Microsoft资深产品经理.负责微软应用与服务集团的大数据平台构建,数据产品与服务. 导读:微软的ASG (应用与服务集团)包含Bing,.Office,.Skype.每天产生多达5 PB以上数据,如何构建一个高扩展性的data audit服务来保证这样量级的数据完整性和实时性非常具有挑战性.本文将介绍微软ASG大数据团队如何利用Kafka.…
来源:https://blog.csdn.net/bluishglc/article/details/79277455 引言在大数据的生态系统里,时间序列数据(Time Series Data,简称TSD)是很常见也是所占比例最大的一类数据,几乎出现在科学和工程的各个领域,一些常见的时间序列数据有:描述服务器运行状况的Metrics数据.各种IoT系统的终端数据.脑电图.汇率.股价.气象和天文数据等等,时序数据在数据特征和处理方式上有很大的共性,因此也催生了一些面向面向时序数据的特定工具,比如时…
MATLAB数据分析工具箱 MATLAB工具箱主要含有的类别有: 数学类.统计与优化类.信号处理与通信类.控制系统设计与分析类.图像处理类.测试与测量类.计算金融类.计算生物类.并行计算类.数据库访问与报告类. MATLAB 代码生成类. MATLAB 应用发布类. 每个类别内含有一个或多个工具箱. 比如数学.统计与优化类别就包含有曲线拟合工具箱.优化工具箱.神经网络工具箱.统计工具箱等. MATLAB 应用发布类别主要包含MATLAB和其他语言的混合编译.编程,包括C.C#.Java等. MA…
使用Pandas进行数据提取 本文转载自:蓝鲸的网站分析笔记 原文链接:使用python进行数据提取 目录 set_index() ix 按行提取信息 按列提取信息 按行与列提取信息 提取特定日期的信息 按日期汇总信息 resample() 数据提取是分析师日常工作中经常遇到的需求.如某个用户的贷款金额,某个月或季度的利息总收入,某个特定时间段的贷款金额和笔数,大于5000元的贷款数量等等.本篇文章介绍如何通过python按特定的维度或条件对数据进行提取,完成数据提取需求. 准备工作 首先是准备…