Data Profiling Task
Data Profiling Task 是用于收集数据的Metadata的Task,在使用ETL处理数据之前,应该首先检查数据质量,对数据进行分析,这将对Table Schema的设计结构和生成ETL的方式产生不可估量的影响。
Data Profiling Task 输出XML格式的数据文件,并能通过Open Profile Viewer 查看输出结果。
一,属性配置
1,General Tab
可以将Task产生的结构化输出保存到文件中,便于对数据质量进行深入的分析,Destination 就是输出结果保存的Path。
2,Profile Requests Tab
Profile Type 共有8个,分别是检查不同类型的数据质量,非常有用。
1,Candidate key Profile Request
检查一列或一组列,以确定数据集用于唯一Candidate key的可能性,即check 数据列和数据列组合的唯一性。
2,Column Length Distribution Profile Request
分析某一列的所有数据,用于确定数据列长度的分布信息
3,Column Null Ration Profile request
检查某一列中NULL值的比例
4,Column Pattern Profile request
将正则表达式引用到某一字符串列中,从而确定数据的通过/失败率。
5,Column Statistics Profile Request
仅适用于数值,日期,时间类型的列,分析所有数据行,提供列值的统计信息:最大值,最小值,平均值和标准方差(列值与平均值的平均方差)
6,Column value Distribution Profile Request
分析所有数据行,提供列值的分布信息
7,Functional Dependency Profile Request
分析两个数据列(决定列和依赖列)之间的依赖关系
8,Value Inclusion Profile Request
确定某一列中的所有值是否全部包含在一个单独的查询或表中,用于check 外键 关系。
二,配置Profile Request
有两种配置Profile Request的方式,第一种在General Tab中,使用 Quick Profile。
第二种就是在Profile Requests Tab中,逐个配置Profile Type。
3,查看数据质量
在General Tab中使用Open Profile Viewer 查看输出结果,分析数据质量。
在该Task执行成功之后,会将结果保存在General Task中设置的Destination 文件中,内容是XML文档。
推荐阅读:
微软BI 之SSIS 系列 - 使用 SQL Profilling Task (数据探测) 检测数据源数据
Data Profiling Task的更多相关文章
- 【转载】改善数据质量从数据剖析(Data Profiling)开始
市场研究公司Forrester副总裁Erin Kinikin曾经把低劣的数据质量做了一个形象的比喻“用更好的方法访问劣质的数据,结果类似于把已经腐烂了的桃子用更快的卡车,走更好的路线运输到达市场时,桃 ...
- [转载] 数据测试常用的Data Profiling方法
现在对数据质量的要求越来越高,面对一个动辄上亿条数据的报表如何快速对它的数据质量做出分析呢?给大家分享下我们测试时用到的Data Profiling方法. Data Profiling,可以大概翻译“ ...
- 微软BI 之SSIS 系列 - 理解Data Flow Task 中的同步与异步, 阻塞,半阻塞和全阻塞以及Buffer 缓存概念
开篇介绍 在 SSIS Dataflow 数据流中的组件可以分为 Synchronous 同步和 Asynchronous 异步这两种类型. 同步与异步 Synchronous and Asynchr ...
- SSIS:控件清单
Control Flow 控制流程 Containers 容器 For Loop Container Foreach Loop Container Sequence Container Core Ta ...
- BI之SSIS入门最新版Visual Studio调试技巧
简介 最近公司业务需要用到BI SSIS,SSIS是什么?"SSIS是Microsoft SQL Server Integration Services的简称,是生成高性能数据集成解决方案( ...
- SSIS Data Flow优化
一,数据流设计优化 数据流有两个特性:流和在内存缓冲区中处理数据,根据数据流的这两个特性,对数据流进行优化. 1,流,同时对数据进行提取,转换和加载操作 流,就是在source提取数据时,转换组件处理 ...
- Data Flow的Error Output
一,在Data Flow Task中,对于Error Row的处理通过Error Output Tab配置的. 1,操作失败的类型:Error(Conversion) 和 Truncation. 2, ...
- SSIS Data Flow 的 Execution Tree 和 Data Pipeline
一,Execution Tree 执行树是数据流组件(转换和适配器)基于同步关系所建立的逻辑分组,每一个分组都是一个执行树的开始和结束,也可以将执行树理解为一个缓冲区的开始和结束,即缓冲区的整个生命周 ...
- SSIS的 Data Flow 和 Control Flow
Control Flow 和 Data Flow,是SSIS Design中主要用到的两个Tab,理解这两个Tab的作用,对设计更高效的package十分重要. 一,Control Flow 在Con ...
随机推荐
- 【转】查询oracle比较慢的session和sql
-查询最慢的sql select * from ( select parsing_user_id,executions,sorts command_type,disk_reads,sql_text f ...
- 使EditText不要在页面打开时自动获取焦点(因为软键盘会自动弹出)
当页面上有EditText时,第一个EditText会在页面打开时自动的获取焦点,这样带来的问题就是系统键盘会自动的弹出来. 解决方法比较简单只要为EditText的父控件设置一下就行了: andro ...
- Java super关键字活用
在实际开发中我们要自定义组件,就需要继承自某个组件类,如果我们自定义的这个组件类也需要像被继承的这个组件类一样,拥有丰富的构造方法. 关键字super的作用就更加显得尤为重要了,你可以在堆砌自己自定义 ...
- javaFx:使用弹出对话框 Alert
javaFx8 自带的对话框非常好用,类似的使用方式如下: /** * 弹出一个通用的确定对话框 * @param p_header 对话框的信息标题 * @param p_message 对话框的信 ...
- React-Native需要css和布局-20160902
import React, { Component } from 'react'; import { AppRegistry, StyleSheet, Text, View, } from 'reac ...
- 纯CCS绘制三角形箭头图案
用CSS绘制三角形箭头.使用纯CSS,你只需要很少的代码就可以创作出各种浏览器都兼容的三角形箭头! CSS代码: /* create an arrow that points up */ div.ar ...
- css实现一行文字居中,多行文字居左
第一种方法: <style> *{margin:0;padding:0;} .box{width:500px;height:300px;border:1px solid #000;text ...
- dd——留言板再加验证码功能
1.找到后台-核心-频道模型-自定义表单 2.然后点击增加新的自定义表单 diyid 这个,不管他,默认就好 自定义表单名称 这个的话,比如你要加个留言板还是投诉建议?写上去呗 数据表 这个不要碰, ...
- SEO:避免关键词内部竞争带来的无法收录问题,
站内关键词相互竞争在未经过搜索引擎优化的网站中常出现.许多人不理解搜索引擎对关键词的索引原理,以为在整站内频繁布局某几个热门关键词能提升这些词的排名. 一.搜索引擎希望展现多种多样的搜索结果 搜索引擎 ...
- 关于learntorank http://qiita.com/rockhopper/items/bb3d46f01df5f6499123
一.数据转换 如何对于训练数据做pairwise的transform,比如你原始数据是要么点击要么不点击,如何对这些样本数据做pairwise的transform? 下面的方法主要是做组合的方法,就是 ...