R in action读书笔记（20）第十五章处理缺失数据的高级方法

处理缺失数据的高级方法

15.1 处理缺失值的步骤

一个完整的处理方法通常包含以下几个步骤：

(1) 识别缺失数据；

(2) 检查导致数据缺失的原因；

(3) 删除包含缺失值的实例或用合理的数值代替（插补）缺失值。

缺失数据的分类：

(1) 完全随机缺失：若某变量的缺失数据与其他任何观测或未观测变量都不相关，则数据为完全随机缺失（MCAR）

(2) 随机缺失：若某变量上的缺失数据与其他观测变量相关，与它自己的未观测值不相关，则数据为随机缺失（MAR）

(3) 非随机缺失若缺失数据不属于MCAR或MAR，则数据为非随机缺失（NMAR）。

处理缺失数据的方法：

15.2 识别缺失值

is.na()、is.nan()和is.infinite()函数的返回值示例

> data(sleep,package="VIM")#加载数据集

> sleep[complete.cases(sleep),]#列出没有缺失值的行

> sleep[!complete.cases(sleep),]#列出有一个或多个缺失值的行

> options(digits=2)

> sum(is.na(sleep$Dream))

[1] 12

> mean(is.na(sleep$Dream))

[1] 0.19

> mean(!complete.cases(sleep))

[1] 0.32

结果表明变量Dream有12个缺失值，19%的实例在此变量上有缺失值。另外，数据集中32%的实例包含一个或多个缺失值。

15.3 探索缺失值模式

15.3.1 列表显示缺失值

mice包中的md.pattern()函数可生成一个以矩阵或数据框形式展示缺失值模式的表格:

> library(mice)

> data(sleep,package="VIM")

> md.pattern(sleep)

   BodyWgt BrainWgt Pred Exp Danger Sleep Span Gest Dream NonD

42       1        1    1   1      1     1    1    1     1    1  0

 2       1        1    1   1      1     1    0    1     1    1  1

 3       1        1    1   1      1     1    1    0     1    1  1

 9       1        1    1   1      1     1    1    1     0    0  2

 2       1        1    1   1      1     0    1    1     1    0  2

 1       1        1    1   1      1     1    0    0     1    1  2

 2       1        1    1   1      1     0    1    1     0    0  3

 1       1        1    1   1      1     1    0    1     0    0  3

         0        0    0   0      0     4    4    4    12   14 38

0表示变量的列中有缺失值，1则表示没有缺失值.

15.3.2 图形探究缺失数据

aggr()函数不仅绘制每个变量的缺失值数，还绘制每个变量组合的缺失值数。

> library(VIM)

> aggr(sleep,prop=FALSE,numbers=TRUE)

marginplot()函数可生成一幅散点图，在图形边界展示两个变量的缺失值信息:

> marginplot(sleep[c("Gest","Dream")],pch=c(20),col=c("darkgray","red","blue"))

15.3.3 用相关性探索缺失值

用指示变量替代数据集中的数据（1表示缺失，0表示存在），这样生成的矩阵有时称作影子矩阵。求这些指示变量间和它们与初始（可观测）变量间的相关性，有助于观察哪些变量常一起缺失，以及分析变量“缺失”与其他变量间的关系:

> x<-as.data.frame(abs(is.na(sleep)))

> head(sleep,n=5)

> head(x,n=5)

> y<-x[which(sd(x) > 0)]

> cor(y)

15.4 理解缺失数据的来由和影响

三种非常流行的方法：恢复数据的推理方法、涉及删除缺失值的传统方法、涉及模拟的现代方法。

15.5 理性处理不完整数据

15.6 完整实例分析（行删除）

函数complete.cases()可以用来存储没有缺失值的数据框或者矩阵形式的实例（行）：

newdata<-mydata[complete.cases(mydata),]

计算相关系数前，使用行删除法可删除所有含有缺失值的动物：

> options(digits=1)

> cor(na.omit(sleep))

         BodyWgt BrainWgt NonD Dream Sleep  Span  Gest  Pred  Exp Danger

BodyWgt     1.00     0.96 -0.4 -0.07  -0.3  0.47  0.71  0.10  0.4   0.26

BrainWgt    0.96     1.00 -0.4 -0.07  -0.3  0.63  0.73 -0.02  0.3   0.15

NonD       -0.39    -0.39  1.0  0.52   1.0 -0.37 -0.61 -0.35 -0.6  -0.53

Dream      -0.07    -0.07  0.5  1.00   0.7 -0.27 -0.41 -0.40 -0.5  -0.57

Sleep      -0.34    -0.34  1.0  0.72   1.0 -0.38 -0.61 -0.40 -0.6  -0.60

Span        0.47     0.63 -0.4 -0.27  -0.4  1.00  0.65 -0.17  0.3   0.01

Gest        0.71     0.73 -0.6 -0.41  -0.6  0.65  1.00  0.09  0.6   0.31

Pred        0.10    -0.02 -0.4 -0.40  -0.4 -0.17  0.09  1.00  0.6   0.93

Exp         0.41     0.32 -0.6 -0.50  -0.6  0.32  0.57  0.63  1.0   0.79

Danger      0.26     0.15 -0.5 -0.57  -0.6  0.01  0.31  0.93  0.8   1.00

15.7 多重插补

多重插补（MI）是一种基于重复模拟的处理缺失值的方法, 它将从一个包含缺失值的数据集中生成一组完整的数据集（通常是3到10个）。每个模拟数据集中，缺失数据将用蒙特卡洛方法来填补。此时，标准的统计方法便可应用到每个模拟的数据集上，通过组合输出结果给出估计的结果，以及引入缺失值时的置信区间。R中可利用Amelia、mice和mi包来执行这些操作。

> library(mice)

> imp<-mice(mydata,m)

> fit<-with(imp,analysis)

> pooled<-pool(fit)

> summary(pooled)

mydata是一个包含缺失值的矩阵或数据框。

imp是一个包含m个插补数据集的列表对象，同时还含有完成插补过程的信息。默认地，m为5。

analysis是一个表达式对象，用来设定应用于m个插补数据集的统计分析方法。方法包括做线性回归模型的lm()函数、做广义线性模型的glm()函数、做广义可加模型的

gam()，以及做负二项模型的nbrm()函数。表达式在函数的括号中，~的左边是响应变量，右边是预测变量（用+符号分隔开）。

fit是一个包含m个单独统计分析结果的列表对象。

pooled是一个包含这m个统计分析平均结果的列表对象。

15.8 处理缺失值的其他方法

处理缺失数据的专业方法

15.8.1 成对删除

处理含缺失值的数据集时，成对删除常作为行删除的备选方法使用。对于成对删除，观测只

是当它含缺失数据的变量涉及某个特定分析时才会被删除。

> cor(sleep,use="pairwise.complete.obs")

         BodyWgt BrainWgt NonD Dream Sleep  Span Gest  Pred  Exp Danger

BodyWgt     1.00     0.93 -0.4  -0.1  -0.3  0.30  0.7  0.06  0.3   0.13

BrainWgt    0.93     1.00 -0.4  -0.1  -0.4  0.51  0.7  0.03  0.4   0.15

NonD       -0.38    -0.37  1.0   0.5   1.0 -0.38 -0.6 -0.32 -0.5  -0.48

Dream      -0.11    -0.11  0.5   1.0   0.7 -0.30 -0.5 -0.45 -0.5  -0.58

Sleep      -0.31    -0.36  1.0   0.7   1.0 -0.41 -0.6 -0.40 -0.6  -0.59

Span        0.30     0.51 -0.4  -0.3  -0.4  1.00  0.6 -0.10  0.4   0.06

Gest        0.65     0.75 -0.6  -0.5  -0.6  0.61  1.0  0.20  0.6   0.38

Pred        0.06     0.03 -0.3  -0.4  -0.4 -0.10  0.2  1.00  0.6   0.92

Exp         0.34     0.37 -0.5  -0.5  -0.6  0.36  0.6  0.62  1.0   0.79

Danger      0.13     0.15 -0.5  -0.6  -0.6  0.06  0.4  0.92  0.8   1.00

15.8.2 简单（非随机）插补

所谓简单插补，即用某个值（如均值、中位数或众数）来替换变量中的缺失值。若使用均值替换，Dream变量中的缺失值可用1.97来替换，NonD中的缺失值可用8.67来替换（两个值分别是Dream和NonD的均值）简单插补的一个优点是，解决“缺失值问题”时不会减少分析过程中可用的样本量。虽然简单插补用法很简单，但是对于非MCAR的数据会产生有偏的结果。若缺失数据的数目非常大，那么简单插补很可能会低估标准差、曲解变量间的相关性，并会生成不正确的统计检验的p值。

R in action读书笔记（20）第十五章处理缺失数据的高级方法的更多相关文章

R in action读书笔记（12）第九章方差分析
第九章方差分析 9.2 ANOVA 模型拟合 9.2.1 aov()函数 aov(formula, data = NULL, projections =FALSE, qr = TRUE, contra ...
Introduction to 3D Game Programming with DirectX 12 学习笔记之 --- 第十五章：第一人称摄像机和动态索引
原文:Introduction to 3D Game Programming with DirectX 12 学习笔记之 --- 第十五章:第一人称摄像机和动态索引代码工程地址: https://g ...
R语言实战（十）处理缺失数据的高级方法
本文对应<R语言实战>第15章:处理缺失数据的高级方法本文仅在书的基础上进行简单阐述,更加详细的缺失数据问题研究将会单独写一篇文章. 处理缺失值的一般步骤: 识别缺失数据: 检查导致数据 ...
R in action读书笔记（19）第十四章主成分和因子分析
第十四章:主成分和因子分析本章内容主成分分析探索性因子分析其他潜变量模型主成分分析(PCA)是一种数据降维技巧,它能将大量相关变量转化为一组很少的不相关变量,这些无关变量称为主成分.探索性因 ...
R in action读书笔记（16）第十二章重抽样与自助法之置换检验
第十二章:重抽样与自助法本章,我们将探究两种应用广泛的依据随机化思想的统计方法:置换检验和自助法 12.1 置换检验置换检验,也称随机化检验或重随机化检验. 有两种处理条件的实验,十个受试者已经被 ...
R in action读书笔记（7）-第七章：基本统计分析（下）
7.3相关相关系数可以用来描述定量变量之间的关系.相关系数的符号(±)表明关系的方向(正相关或负相关),其值的大小表示关系的强弱程度(完全不相关时为0,完全相关时为1).除了基础安装以外,我们还将使 ...
WPF，Silverlight与XAML读书笔记第四十五 - 外观效果之模板
说明:本系列基本上是<WPF揭秘>的读书笔记.在结构安排与文章内容上参照<WPF揭秘>的编排,对内容进行了总结并加入一些个人理解. 模板允许用任何东西完全替换一个元素的可视树, ...
《深入理解java虚拟机》读书笔记十一——第十二章
第十二章 Java内存模型与线程 1.硬件效率与一致性由于计算机的存储设备与处理器的运算速度有几个数量级的差距,所以现代计算机系统都不得不加入一层读写速度尽可能接近处理器运算速度的高速缓存(Cac ...
UNP学习笔记（第十五章 UNIX域协议）
UNIX域协议是在单个主机上执行客户/服务器通信的一种方法使用UNIX域套接字有以下3个理由: 1.UNIX域套接字往往比通信两端位于同一个主机的TCP套接字快出一倍 2.UNIX域套接字可用于在同 ...

随机推荐

ubuntu下，创建ruby环境时出现 checking for Magick-config... no
解决:sudo apt-get install libmagickcore-dev libmagickwand-dev
github的提交源码到服务器
github是现代的代码库,各种牛人,各种开源,也是现在大公司招聘的一个考察点, 这里介绍一下怎样把本地源码提交到github上. 首先我们需要在github上创建一个respository. 2,输 ...
强连通分量+poj2186
强连通分量:两个点能够互相连通. 算法分解:第一步.正向dfs全部顶点,并后序遍历第二步,将边反向,从最大边dfs,构成强连通分量标号最大的节点属于DAG头部,cmp存一个强连通分量的拓扑序. p ...
POI异步导入Excel兼容xsl和xlsx
项目架构:spring+struts2+hibernate4+oracle 需求:用户导入excel文件,导入到相应的数据表中,要求提供导入模板,支持xls和xlsx文件思路分析: 1.提供一个下载 ...
JS基本特效 -- 常见40个常用的js页面效果图(转载)
1. oncontextmenu="window.event.returnValue=false" 将彻底屏蔽鼠标右键 <table border oncontextmenu ...
3.myeclipse 8.5 m1 注册码
为了能在eclipse 中方便的使用uml,尝试了多次安装各种uml插件未果,myeclipse 自带uml插件,但是要注册啊,要破解啊!!! user:baiduzhidaopassword:oLR ...
Java中使用HttpRequest获取用户真实IP地址端口
import javax.servlet.http.HttpServletRequest; /** * 自定义访问对象工具类 * * 获取对象的IP地址等信息 * @author X-rapido * ...
xpath中双斜杠的作用// double slash
https://stackoverflow.com/questions/36019544/if-double-slash-is-used-2-times-in-xpath-what-does-it-m ...
redhat输入用户名密码后又跳回到登录
一.如果忘记密码,可以进入single模式修改密码: 1.进入linux启动界面之后按e进入如下界面 2.按选择kernel /vmlinuz-2.4.20-8 ro root=LABEL=/ 项,按 ...
基于 IOCP 的通用异步 Windows Socket TCP 高性能服务端组件的设计与实现
设计概述服务端通信组件的设计是一项非常严谨的工作,其中性能.伸缩性和稳定性是必须考虑的硬性质量指标,若要把组件设计为通用组件提供给多种已知或未知的上层应用使用,则设计的难度更会大大增加,通用性.可用 ...

R in action读书笔记（20）第十五章 处理缺失数据的高级方法

R in action读书笔记（20）第十五章 处理缺失数据的高级方法的更多相关文章

随机推荐

热门专题

R in action读书笔记（20）第十五章处理缺失数据的高级方法

R in action读书笔记（20）第十五章处理缺失数据的高级方法的更多相关文章