数据行业有一句很经典的话--"垃圾进,垃圾出"(Garbage in, Garbage out, GIGO),意思就是,如果使用的基础数据有问题,那基于这些数据得到的任何产出都是没有价值的.而对于数据分析挖掘而言,只有一份高质量的基础数据,才可能得到正确.有用的结论.本文主要介绍数据质量检查的基本思路和方法,具体包括:从哪些角度检查数据质量问题.发现数据质量问题后又如何处理两方面,并提供基于Python的实现方法. 另外,数据质量检查是数据治理中的一个重要课题,涉及内容广,由于笔者经验…
在上一篇文章<数据准备<3>:数据预处理>中,我们提到降维主要包括两种方式:基于特征选择的降维和基于维度转换的降维,其中基于特征选择的降维通俗的讲就是特征筛选或者变量筛选,是指从多个特征(变量)中筛选出显著的特征(变量),在分类预测问题中,就是筛选出对目标变量有预测能力的特征(变量).本篇主要介绍特征(变量)筛选的基本思路与方法,为简洁,下文均使用"变量筛选"指代. 变量筛选主要有三种方法:基于经验的方法(比如专家法).基于统计的方法(比如信息增益.区分度)和基…
上一篇文章:<数据质量检查-理论篇>主要介绍了数据质量检查的基本思路与方法,本文作为补充,从Python实战角度,提供具体的实现方法. 承接上文,仍然从重复值检查.缺失值检查.数据倾斜问题.异常值检查四方面进行描述. 1.环境介绍 版本:python2.7 工具:Spyder 开发人:hbsygfz 2.数据集介绍 数据集:dataset.xlsx 3.代码实现 3.1 导入相关库 import pandas as pd 3.2 读取数据集 dataset = pd.read_excel(&q…
目录 前言 目标 核心的设计原则 通用的数据处理流程 切合实际的解决方案 总结 延伸阅读 最后 作者:justmine 头条号:大数据达摩院 创作不易,未经授权,禁止转载,否则保留追究法律责任的权利. 前言 这是分布式数据处理系统系列的第一篇,也是当下实时流计算引擎实现的奠基石,为了帮助大家从理论到实现形成一个完整的知识体系,计划分为理论篇(剖析分布式数据处理系统的核心思想)和实现篇(详解当下实时流计算引擎如何实现核心思想):大数据的核心是分布式数据处理,建议大家关注[大数据达摩院],后期更精彩…
Google File System 但凡是要开始讲大数据的,都绕不开最初的Google三驾马车:Google File System(GFS), MapReduce,BigTable. 为这一切的基础的Google File System,不但没有任何倒台的迹象,还在不断的演化,事实上支撑着Google这个庞大的互联网公司的一切计算. 以下是原文内容,内容较长,建议详细阅读. 摘要 ​ 我们设计并实现了 Google GFS 文件系统,一个面向大规模数据密集型应用的.可伸缩的分布式文件系统.…
在上一篇文章<数据准备<4>:变量筛选-理论篇>中,我们介绍了变量筛选的三种方法:基于经验的方法.基于统计的方法和基于机器学习的方法,本文将介绍后两种方法在Python(sklearn)环境下的具体实现. 1.环境介绍 版本:python2.7 工具:Spyder 开发人:hbsygfz 2.数据集介绍 数据集:sklearn中自带的cancer数据集,可参考官方介绍 from sklearn.datasets import load_breast_cancer cancer =…
               Wireshark数据抓包分析--网络协议篇     watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvZGF4dWViYQ==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast" alt="">                 Wireshark是眼下最受欢迎的抓包工具. 它能够执行在Windows.…
数据分布图简介 中医上讲看病四诊法为:望闻问切.而数据分析师分析数据的过程也有点相似,我们需要望:看看数据长什么样:闻:仔细分析数据是否合理:问:针对前两步工作搜集到的问题与业务方交流:切:结合业务方反馈的结果和项目需求进行数据分析. "望"的方法可以认为就是制作数据可视化图表的过程,而数据分布图无疑是非常能反映数据特征(用户症状)的.R语言提供了多种图表对数据分布进行描述,本文接下来将逐一讲解. 绘制基本直方图 本例选用如下测试集: 直方图的横轴为绑定变量区间分隔的取值范围,纵轴则表…
前言 绘制统计图形时,半数以上的时间会花在调用绘图命令之前的数据塑型操作上.因为在把数据送进绘图函数前,还得将数据框转换为适当格式才行. 本文将给出使用R语言进行数据塑型的一些基本的技巧,更多技术细节推荐参考<R语言核心手册>. 数据框塑型 1. 创建数据框 - data.frame() # 创建向量p p = c("A", "B", "C") # 创建向量q q = 1:3 # 创建数据框:含p/q两列 dat = data.fra…
创建数据表:create table 数据表名 1.创建表规范 create table 表名( 列名   数据类型    是否为空   自动排序/默认值  主键/外键/唯一键, 列名   数据类型    是否为空   默认值   外键/唯一键 ) ENGINE=InnoDB  default  charset=utf8; 强制创建数据库:create database if not exists 数据库名: 数据类型不用再说了 是否为空 not null/null not null:表示不能为…