https://zhuanlan.zhihu.com/p/64418072

源数据常常包含各种差错值,为了进行下一步的分析,我们必须先找出并更正这些差错,做这些工作几乎不会有什么快乐感可言,但却往往需要耗费很多精力。如果利用数据准备工具就能够发现这些数据质量问题,我们就可以节省大量时间。

PowerQuery恰好有个功能就是做这个的:列分析,下面就来看看这个功能如何帮助我们进行数据清洗的。

首先更新到最新版的 PowerBI Desktop,在预览功能中启用列分析。

然后在 Power Query 编辑器中可以看到数据与之前稍微有点不同,标题下方多了一个绿色的条,

在 PQ 编辑器窗口,点击【视图】选项卡,看到数据预览处多了两个新功能:列分发和列质量,

列质量

随便打开一个表,勾选"列质量",看看是什么效果,

可以看出自动对该列的数据质量进行了统计,区分为有效、错误和空值,并用不同的颜色进行区分,分别统计所占的比例,标题下方不同颜色的数据条长度也按不同类型的数据比例进行标示。

而一旦该列中含有错误值,颜色条直接用虚线标示,也许是因为错误值是不可容忍,必须进行相应处理。把鼠标悬停在该区域,自动浮出提示窗口,提示在[类别]中有一处错误值,

可以直接点击删除错误,然后该错误行将被删除。

同样,在有空值的列悬停鼠标,也会出现删除空的窗口,直接点击就可以将含有空值的行删除。

列分发

勾选"列分发",

可以看到每列直接出来一个迷你的柱形图,把该列数据非重复值的分布,直观的展现出来,并在下方统计该列该有多少个非重复值,多少个唯一值。鼠标悬停在该区域,还可以直接点击删除重复项。

通过这个功能是不是可以方便的知道数据的质量,并进行快速的整理呢。

不过遗憾的是,目前列分析功能只能针对前1000行进行分析,并不能分析全部的数据。

如果对行进行翻转,还可以分析最后1000行的数据质量,即使通过这种方式,也就仅仅能分析2000行而已,如果数据量较小还可以,而今天我们要面对的数据量,动辄可能都多出两个数量级都不止,所以这2000行的数据几乎可以忽略不计,但这个功能也绝不是摆设,我们同样可以利用这样的快速分析,对该数据质量有一个大致的预判,在数据清洗阶段应该分配多少精力也有个预期。

当然该功能除了数据量上的不足,对于分析的质量,也仅停留在空值、错误值、重复值和唯一值等表面的数据元素上,无法进行更智能的异常排查,但毕竟走出了第一步,期待PowerBI在这方面尽快有更成熟的动作。

数据可视化之powerBI基础(十六)PowerQuery的这个小功能,让你轻松发现数据质量问题的更多相关文章

  1. 数据可视化之powerBI基础(六)Power BI的“问答”,你用过吗?

    https://zhuanlan.zhihu.com/p/64412190 ​本文来自星球嘉宾"海艳"的分享,关于Power BI的问答功能以及各项细节,海艳详细为大家逐一介绍,下 ...

  2. 数据可视化之powerBI基础(十二)PowerBI导入Excel数据有哪几种方式?

    https://zhuanlan.zhihu.com/p/64999937 Excel作为使用最频繁.应用最广泛.用户最庞大的数据处理工具,当然也应该是PowerBI最常用的数据获取方式,本文介绍一下 ...

  3. 数据可视化之powerBI入门(六)PowerQuery:横向/纵向追加数据

    https://zhuanlan.zhihu.com/p/64148432 上一篇文章都是在原表数据基础上的分分合合,但做数据分析的时候还经常需要在原有数据的基础上增加一些辅助数据,比如加入新列.新行 ...

  4. 数据可视化之powerBI基础(十一)Power BI中的数据如何导出到Excel中?

    https://zhuanlan.zhihu.com/p/64415543 把Excel中数据加载到PowerBI中我们都已经熟悉了,但是怎么把在PowerBI中处理好的数据导出到Excel中呢?毕竟 ...

  5. 数据可视化之powerBI基础(九)Power BI中的“新表”,你会用吗?

    https://zhuanlan.zhihu.com/p/64413703 通常情况下,在PowerBI进行分析的各种数据表都是从外部的各种数据源导入进来的,但并不总是如此,某些情况下在PowerBI ...

  6. 数据可视化之powerBI技巧(六)在PowerBI中简单的操作,实现复杂的预测分析

    时间序列预测就是利用过去一段时间内的数据来预测未来一段时间内该数据的走势,比如根据过去5年的销售数据进行来年的收入增长预测,根据上个季度的股票走势推测未来一周的股价变化等等. 对于大部分人来说,这是个 ...

  7. 数据可视化之powerBI基础(二)PowerBI动态图表技巧:钻取交互

    https://zhuanlan.zhihu.com/p/64406366 查看可视化图表的时候,我们可能想深入了解某个视觉对象的更详细信息,或者进行更细粒度的分析,比如看到2017年的总体数据,同时 ...

  8. 数据可视化之powerBI基础(一) 如何查看PowerBI图表背后的数据

    https://zhuanlan.zhihu.com/p/64405494 图表很直观,但有时候我们不仅想看图,也想更进一步查看生成该图表的明细数据,在PowerBI中有三种方式. (一)在图表上单击 ...

  9. 数据可视化之powerBI基础(十七)掌握PowerBI按列排序,再也不用担心顺序错乱了

    https://zhuanlan.zhihu.com/p/64421933 经常有朋友问,当把文本字段放到坐标轴或者切片器上,显示的顺序都乱了,完全不是自己想要的,就像下面这些, ↑月份坐标轴 ↑星期 ...

随机推荐

  1. (八)slf4j+logback 的配置与使用

    logback的配置看这篇:https://www.cnblogs.com/lvchengda/p/13054457.html 使用 @Slf4j 1)安装插件lombok 在eclipse/myec ...

  2. Spring整合JDBC temple

    一.Spring对Jdbc的支持 Spring为了提供对Jdbc的支持,在Jdbc API的基础上封装了一套实现,以此建立一个 JDBC 存取框架. 作为 Spring JDBC 框架的核心, JDB ...

  3. 错误 C2679二进制“没有找到接受“std::string”类型的右操作数的运算符(或没有可接受的转换

    错误 C2679二进制“没有找到接受“std::string”类型的右操作数的运算符(或没有可接受的转换 严重性 代码 说明 项目 文件 行 禁止显示状态错误 C2679 二进制“<<”: ...

  4. MyBatis一对多嵌套list返回结果集以及分页查询问题处理

    这两天在整理原有系统接口时,遇到后端的人员-角色-菜单的权限接口没有进行连表的关联查询操作,前端拿数据非常不方便,现在将接口相关sql进行修改并让前端可以一次性拿到想要的数据 原有的单表简单sql: ...

  5. JavaWeb网上图书商城完整项目--21.用户模块各层相关类的创建

    1.现在要为user用户模块创建类 用户模块功能包括:注册.激活.登录.退出.修改密码. User类对照着t_user表来写即可.我们要保证User类的属性名称与t_user表的列名称完全相同. 我们 ...

  6. 动力节点 mysql 郭鑫 34道经典的面试题

    DROP TABLE IF EXISTS `dept`; CREATE TABLE `dept` ( `DEPTNO` int(2) NOT NULL COMMENT '部门编号', `DNAME` ...

  7. Django的F查询和Q查询,事务,ORM执行原生SQL

    F查询和Q查询,事务及其他   F查询和Q查询 F查询 在上面所有的例子中,我们构造的过滤器都只是将字段值与某个我们自己设定的常量做比较.如果我们要对两个字段的值做比较,那该怎么做呢? Django ...

  8. Python初识函数

    Python初识函数 函数理论篇 什么是函数 在编程语言中的函数不同于数学中的函数.不管是数学上的函数还是编程语言中的函数都是为了完成特定的某一功能而诞生的,他们的区别在于: 1.数学中的函数当输入的 ...

  9. node+ajax实战案例(1)

    1.mysql入门 1.1.数据库相关概念 1.1.1.什么是数据? 描述事物的符号记录称为数据,描述事物的符号可以是数字.文字.声音.图片.视频等,有多种表现形式,都可以经过数字化后存入计算机 1. ...

  10. 单调队列练习题解(切蛋糕&好消息,坏消息)

    单调队列的练习题解 前言: 在上一篇学习记录中,单调队列给出了几道练习题,因为这两道题的算法以及思路相差无几(几乎可以算是双倍经验quq),所以就在这里集中写一下相关的题解 前置知识: 见:队列专题( ...