数据准备<2>:数据质量检查-实战篇

上一篇文章：《数据质量检查-理论篇》主要介绍了数据质量检查的基本思路与方法，本文作为补充，从实战角度出发，总结一套基于Python的数据质量检查模板。

承接上文，仍然从重复值检查、缺失值检查、数据倾斜检查、异常值检查四方面进行描述。

1.环境介绍

版本：python2.7

工具：Spyder

开发人：hbsygfz

2.数据集介绍

数据集：dataset.xlsx

3.代码实现

3.1 导入相关库

import pandas as pd

###3.2 读取数据集

dataset = pd.read_excel("/labcenter/python/dataset.xlsx")

discColList = ['col4','col7']

contColList = ['col1','col2','col3','col5','col6']

###3.3 重复值检查
主要统计指标：重复记录数、字段唯一值数。

### (1)重复记录数

def dupRowsCheck(df):

    dupRows = df.duplicated().sum()

    return dupRows

### (2)字段唯一值数

def uiqColValCheck(df):

    # 记录数,变量数

    m,n = df.shape

    uiqDf = pd.DataFrame(index=df.columns,columns=['rows','uiqCnt'])

    uiqDf['rows'] = m

    for j in range(n):

        ser = df.iloc[:,j]

        name = df.columns[j]

        uiqCnt = len(ser.unique())

        uiqDf.loc[name,'uiqCnt'] = uiqCnt

    return uiqDf

执行与结果：

dupRowsCheck(dataset)

Out[95]: 0

uiqColValCheck(dataset)

Out[96]:

      rows uiqCnt

col1    10     10

col2    10      9

col3    10     10

col4    10      3

col5    10      9

col6    10      5

col7    10      2

###3.4 缺失值检查
主要统计指标：字段空值记录数。

def missingCheck(df):

    # 记录数,变量数

    m,n = df.shape

    rowsSer = pd.Series(index=df.columns)

    rowsSer.name = 'rows'

    # 空值记录数

    nullCntSer = df.isnull().sum()

    nullCntSer.name = 'nullCnt'

    # 合并结果

    missDf = pd.concat([rowsSer,nullCntSer],axis=1)

    missDf['rows'] = m

    return missDf

执行与结果：

missingCheck(dataset)

Out[97]:

      rows  nullCnt

col1    10        0

col2    10        1

col3    10        0

col4    10        0

col5    10        1

col6    10        0

col7    10        0

###3.5 数据倾斜检查
主要统计指标：记录数、类别个数、最大类别记录数、最大类别记录数占比。

def skewCheck(df,discList,contList,bins):

    # 离散型变量类别统计

    new_df1 = df[discList]

    skewDf1 = pd.DataFrame(index=discList,columns=['rows','classCnt','mostClassCnt','mostClassRio'])

    m1,n1 = new_df1.shape

    for j in range(n1):

        ser = new_df1.iloc[:,j]

        name = new_df1.columns[j]

        freqSer = pd.value_counts(ser)

        skewDf1.loc[name,'rows'] = m1

        skewDf1.loc[name,'classCnt'] = len(freqSer)

        skewDf1.loc[name,'mostClassCnt'] = freqSer[0]

        skewDf1.loc[name,'mostClassRio'] = freqSer[0] * 1.00 / m1

    # 连续型变量分箱统计

    new_df2 = df[contList]

    skewDf2 = pd.DataFrame(index=contList,columns=['rows','classCnt','mostClassCnt','mostClassRio'])

    m2,n2 = new_df2.shape

    for j in range(n2):

        ser = new_df2.iloc[:,j]

        name = new_df2.columns[j]

        freqSer = pd.value_counts(pd.cut(ser,bins))

        skewDf2.loc[name,'rows'] = m2

        skewDf2.loc[name,'classCnt'] = len(freqSer)

        skewDf2.loc[name,'mostClassCnt'] = freqSer[0]

        skewDf2.loc[name,'mostClassRio'] = freqSer[0] * 1.00 / m2

    # 合并结果

    skewDf = pd.concat([skewDf1,skewDf2],axis=0)

    return skewDf

执行与结果：

skewCheck(dataset,discColList,contColList,4)

Out[98]:

     rows classCnt mostClassCnt mostClassRio

col4   10        3            5          0.5

col7   10        2            6          0.6

col1   10        4            3          0.3

col2   10        4            3          0.3

col3   10        4            4          0.4

col5   10        4            3          0.3

col6   10        4            1          0.1

###3.6 异常值检查
主要统计指标：最大值、最小值、平均值、标准差、变异系数、大于平均值+3倍标准差的记录数、小于平均值-3倍标准差记录数、大于上四分位+1.5倍的四分位间距记录数、小于下四分位-1.5倍的四分位间距记录数、正值记录数、零值记录数、负值记录数。

### (1)异常值统计

def outCheck(df,contList):

    new_df = df[contList]

    resDf = new_df.describe()

    resDf.loc['cov'] = resDf.loc['std'] / resDf.loc['mean']     #计算变异系数

    resDf.loc['mean+3std'] = resDf.loc['mean'] + 3 * resDf.loc['std']  #计算平均值+3倍标准差

    resDf.loc['mean-3std'] = resDf.loc['mean'] - 3 * resDf.loc['std']  #计算平均值-3倍标准差

    resDf.loc['75%+1.5dist'] = resDf.loc['75%'] + 1.5 * (resDf.loc['75%'] - resDf.loc['25%'])  #计算上四分位+1.5倍的四分位间距

    resDf.loc['25%-1.5dist'] = resDf.loc['25%'] - 1.5 * (resDf.loc['75%'] - resDf.loc['25%'])  #计算下四分位-1.5倍的四分位间距

    # 3segma检查

    segmaSer1 = new_df[new_df > resDf.loc['mean+3std']].count()    #平均值+3倍标准差

    segmaSer1.name = 'above3SegmaCnt'

    segmaSer2 = new_df[new_df < resDf.loc['mean-3std']].count()    #平均值-3倍标准差

    segmaSer2.name = 'below3SegmaCnt'

    # 箱线图检查

    boxSer1 = new_df[new_df > resDf.loc['75%+1.5dist']].count()    #上四分位+1.5倍的四分位间距

    boxSer1.name = 'aboveBoxCnt'

    boxSer2 = new_df[new_df < resDf.loc['25%-1.5dist']].count()    #下四分位-1.5倍的四分位间距

    boxSer2.name = 'belowBoxCnt'

    # 合并结果

    outTmpDf1 = pd.concat([segmaSer1,segmaSer2,boxSer1,boxSer2],axis=1)

    outTmpDf2 = resDf.loc[['max','min','mean','std','cov']]

    outDf = pd.concat([outTmpDf2.T,outTmpDf1],axis=1)

    return outDf

### (2)正负分布检查

def distCheck(df,contList):

    new_df = df[contList]

    distDf = pd.DataFrame(index=contList,columns=['rows','posCnt','zeroCnt','negCnt'])

    m,n = new_df.shape

    for j in range(n):

        ser = new_df.iloc[:,j]

        name = new_df.columns[j]

        posCnt = ser[ser>0].count()

        zeroCnt = ser[ser==0].count()

        negCnt = ser[ser<0].count()

        distDf.loc[name,'rows'] = m

        distDf.loc[name,'posCnt'] = posCnt

        distDf.loc[name,'zeroCnt'] = zeroCnt

        distDf.loc[name,'negCnt'] = negCnt

    return distDf

执行与结果：

outCheck(dataset,contColList)

Out[101]:

           max    min        mean         std       cov  above3SegmaCnt  below3SegmaCnt  aboveBoxCnt  belowBoxCnt

col1  110.0000  101.0  105.500000    3.027650  0.028698               0               0            0            0

col2   58.0000   20.0   34.444444   11.959422  0.347209               0               0            1            0

col3  221.0000   10.0   87.700000   71.030588  0.809927               0               0            0            0

col5  598.0000    0.0  246.333333  235.303647  0.955225               0               0            0            0

col6    0.0115   -0.3   -0.027740    0.095759 -3.452026               0               0            2            1

distCheck(dataset,contColList)

Out[102]:

     rows posCnt zeroCnt negCnt

col1   10     10       0      0

col2   10      9       0      0

col3   10     10       0      0

col5   10      7       2      0

col6   10      3       6      1

数据准备<2>:数据质量检查-实战篇的更多相关文章

数据准备<5>:变量筛选-实战篇
在上一篇文章<数据准备<4>:变量筛选-理论篇>中,我们介绍了变量筛选的三种方法:基于经验的方法.基于统计的方法和基于机器学习的方法,本文将介绍后两种方法在Python(skl ...
数据准备<4>:变量筛选-理论篇
在上一篇文章<数据准备<3>:数据预处理>中,我们提到降维主要包括两种方式:基于特征选择的降维和基于维度转换的降维,其中基于特征选择的降维通俗的讲就是特征筛选或者变量筛选,是指 ...
数据准备<1>:数据质量检查-理论篇
数据行业有一句很经典的话--"垃圾进,垃圾出"(Garbage in, Garbage out, GIGO),意思就是,如果使用的基础数据有问题,那基于这些数据得到的任何产出都是没 ...
Scrapy实战篇（五）之爬取历史天气数据
本篇文章我们以抓取历史天气数据为例,简单说明数据抓取的两种方式: 1.一般简单或者较小量的数据需求,我们以requests(selenum)+beautiful的方式抓取数据 2.当我们需要的数据量较 ...
Scrapy实战篇（八）之Scrapy对接selenium爬取京东商城商品数据
本篇目标:我们以爬取京东商城商品数据为例,展示Scrapy框架对接selenium爬取京东商城商品数据. 背景: 京东商城页面为js动态加载页面,直接使用request请求,无法得到我们想要的商品数据 ...
《大数据实时计算引擎 Flink 实战与性能优化》新专栏
基于 Flink 1.9 讲解的专栏,涉及入门.概念.原理.实战.性能调优.系统案例的讲解. 专栏介绍扫码下面专栏二维码可以订阅该专栏首发地址:http://www.54tianzhisheng. ...
Wireshark数据抓包分析——网络协议篇
Wireshark数据抓包分析--网络协议篇 watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvZGF4dWViYQ==/ ...
Python数据抓取技术与实战 pdf
Python数据抓取技术与实战目录 D11章Python基础1.1Python安装1.2安装pip1.3如何查看帮助1.4D1一个实例1.5文件操作1.6循环1.7异常1.8元组1.9列表1.10字 ...
第六篇：R语言数据可视化之数据分布图（直方图、密度曲线、箱线图、等高线、2D密度图）
数据分布图简介中医上讲看病四诊法为:望闻问切.而数据分析师分析数据的过程也有点相似,我们需要望:看看数据长什么样:闻:仔细分析数据是否合理:问:针对前两步工作搜集到的问题与业务方交流:切:结合业务方 ...

随机推荐

（一二四）tableView的多组数据展示和手动排序
最近在写一个轻量级的网络游戏,遇到了技能优先顺序手动排序的需求,我就想到了iOS自带的tableView编辑功能,对其进行了初步探索,最后做出的效果如下图所示: 点击左边可以删除,拖住右边可以手动排序 ...
Dynamics CRM 后台通过组织服务获取时间字段值的准确转换
做CRM开发的都知道,在系统时间字段的处理上是有讲究的,因为数据库中存的是UTC时间,CRM的界面时间字段会根据个人设置中的时区以及格式自动调整,这是最基本的一面,那还有很多使用时间的场景,比如脚本使 ...
sql中InnoDB和MyISAM的区别
InnoDB和MyISAM是许多人在使用MySQL时最常用的两个表类型 1,MyISAM类型的表强调的是性能,其执行数度比InnoDB类型更快,但是不提供事务支持等高级处理,往往被认为只适合小项目:而 ...
Unable to instantiate Action, MenuAction, defined for 'QueryMenuAll' in namespace '/'MenuAction
我刚好也遇到这样的情况,发现是自己的配置文件里写错了,spring里的id属性值要对应struts里class属性值.
eclipse代码恢复（开发程序代码恢复）
如果误操作,让本地代码丢失了不用怕,Eclipse local history可以恢复. 误删除文件后,直接ctrl+z可以恢复. 拉去代码覆盖了本地,也可以一个一个或者整体进行恢复:http://b ...
未完成的IT路停在回车键---2014年末总结篇
时间都去哪儿了? 一晃而过,越来越能体会到这个词的真实感.特别是过了二十岁,这种感觉越来越深刻,越来越强烈,犹如小编做公交车的时候一直向后排排倒的香樟树,还记得有首歌叫时间都哪儿了,而 ...
分布式数据库HBase表设计
比较常用的数据库是关系型数据库,但很多场景下nosql数据库会更加擅长,从sql到nosql实施的第一步就是设计表结构,这是两种不同的思维方式,这里说下HBase表设计. 需求:需要一张stock表用 ...
编译Android 4.4.2源码
在之前的文章中,和大家分享了在天朝下下载android 4.4.2源码的过程(详见下载android4.4.2源码全过程(附已下载的源码)),现在写下编译的笔记. 虽然在android doc中,有提 ...
【一天一道LeetCode】#36. Valid Sudoku
一天一道LeetCode 本系列文章已全部上传至我的github,地址:https://github.com/Zeecoders/LeetCode 欢迎转载,转载请注明出处 (一)题目 Determi ...
Spring BeanFacoty doCreateBean方法分析
上一篇,我们分析到了doCreateBean,现在继续: 先看看时序图 protected Object doCreateBean(final String beanName, final RootB ...

数据准备<2>:数据质量检查-实战篇

1.环境介绍

2.数据集介绍

3.代码实现

3.1 导入相关库

数据准备<2>:数据质量检查-实战篇的更多相关文章

随机推荐

热门专题