数据准备<1>:数据质量检查-理论篇

【数据准备<1>:数据质量检查-理论篇】的更多相关文章

数据准备<1>:数据质量检查-理论篇

数据行业有一句很经典的话--"垃圾进,垃圾出"(Garbage in, Garbage out, GIGO),意思就是,如果使用的基础数据有问题,那基于这些数据得到的任何产出都是没有价值的.而对于数据分析挖掘而言,只有一份高质量的基础数据,才可能得到正确.有用的结论.本文主要介绍数据质量检查的基本思路和方法,具体包括:从哪些角度检查数据质量问题.发现数据质量问题后又如何处理两方面,并提供基于Python的实现方法. 另外,数据质量检查是数据治理中的一个重要课题,涉及内容广,由于笔者经验…

数据准备<4>:变量筛选-理论篇

在上一篇文章<数据准备<3>:数据预处理>中,我们提到降维主要包括两种方式:基于特征选择的降维和基于维度转换的降维,其中基于特征选择的降维通俗的讲就是特征筛选或者变量筛选,是指从多个特征(变量)中筛选出显著的特征(变量),在分类预测问题中,就是筛选出对目标变量有预测能力的特征(变量).本篇主要介绍特征(变量)筛选的基本思路与方法,为简洁,下文均使用"变量筛选"指代. 变量筛选主要有三种方法:基于经验的方法(比如专家法).基于统计的方法(比如信息增益.区分度)和基…

数据准备<2>:数据质量检查-实战篇

上一篇文章:<数据质量检查-理论篇>主要介绍了数据质量检查的基本思路与方法,本文作为补充,从Python实战角度,提供具体的实现方法. 承接上文,仍然从重复值检查.缺失值检查.数据倾斜问题.异常值检查四方面进行描述. 1.环境介绍版本:python2.7 工具:Spyder 开发人:hbsygfz 2.数据集介绍数据集:dataset.xlsx 3.代码实现 3.1 导入相关库 import pandas as pd 3.2 读取数据集 dataset = pd.read_excel(&q…

大数据理论篇 - 通俗易懂，揭秘谷歌《The Dataflow Model》的核心思想(一)

目录前言目标核心的设计原则通用的数据处理流程切合实际的解决方案总结延伸阅读最后作者:justmine 头条号:大数据达摩院创作不易,未经授权,禁止转载,否则保留追究法律责任的权利. 前言这是分布式数据处理系统系列的第一篇,也是当下实时流计算引擎实现的奠基石,为了帮助大家从理论到实现形成一个完整的知识体系,计划分为理论篇(剖析分布式数据处理系统的核心思想)和实现篇(详解当下实时流计算引擎如何实现核心思想):大数据的核心是分布式数据处理,建议大家关注[大数据达摩院],后期更精彩…

大数据理论篇HDFS的基石——Google File System

Google File System 但凡是要开始讲大数据的,都绕不开最初的Google三驾马车:Google File System(GFS), MapReduce,BigTable. 为这一切的基础的Google File System,不但没有任何倒台的迹象,还在不断的演化,事实上支撑着Google这个庞大的互联网公司的一切计算. 以下是原文内容,内容较长,建议详细阅读. 摘要我们设计并实现了 Google GFS 文件系统,一个面向大规模数据密集型应用的.可伸缩的分布式文件系统.…

数据准备<5>:变量筛选-实战篇

在上一篇文章<数据准备<4>:变量筛选-理论篇>中,我们介绍了变量筛选的三种方法:基于经验的方法.基于统计的方法和基于机器学习的方法,本文将介绍后两种方法在Python(sklearn)环境下的具体实现. 1.环境介绍版本:python2.7 工具:Spyder 开发人:hbsygfz 2.数据集介绍数据集:sklearn中自带的cancer数据集,可参考官方介绍 from sklearn.datasets import load_breast_cancer cancer =…

Wireshark数据抓包分析——网络协议篇

Wireshark数据抓包分析--网络协议篇 watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvZGF4dWViYQ==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast" alt=""> Wireshark是眼下最受欢迎的抓包工具. 它能够执行在Windows.…

第六篇：R语言数据可视化之数据分布图（直方图、密度曲线、箱线图、等高线、2D密度图）

数据分布图简介中医上讲看病四诊法为:望闻问切.而数据分析师分析数据的过程也有点相似,我们需要望:看看数据长什么样:闻:仔细分析数据是否合理:问:针对前两步工作搜集到的问题与业务方交流:切:结合业务方反馈的结果和项目需求进行数据分析. "望"的方法可以认为就是制作数据可视化图表的过程,而数据分布图无疑是非常能反映数据特征(用户症状)的.R语言提供了多种图表对数据分布进行描述,本文接下来将逐一讲解. 绘制基本直方图本例选用如下测试集: 直方图的横轴为绑定变量区间分隔的取值范围,纵轴则表…

第二篇：R语言数据可视化之数据塑形技术

前言绘制统计图形时,半数以上的时间会花在调用绘图命令之前的数据塑型操作上.因为在把数据送进绘图函数前,还得将数据框转换为适当格式才行. 本文将给出使用R语言进行数据塑型的一些基本的技巧,更多技术细节推荐参考<R语言核心手册>. 数据框塑型 1. 创建数据框 - data.frame() # 创建向量p p = c("A", "B", "C") # 创建向量q q = 1:3 # 创建数据框:含p/q两列 dat = data.fra…

数据库之mysql篇（3）—— mysql创建/修改数据表/操作表数据

创建数据表:create table 数据表名 1.创建表规范 create table 表名( 列名数据类型是否为空自动排序/默认值主键/外键/唯一键, 列名数据类型是否为空默认值外键/唯一键 ) ENGINE=InnoDB default charset=utf8; 强制创建数据库:create database if not exists 数据库名: 数据类型不用再说了是否为空 not null/null not null:表示不能为…