0 引言 对于一些数据集,不可避免的出现缺失值.对缺失值的处理非常重要,它是我们能否继续进行数据分析的关键,也是能否继续大数据分析的数据基础. 1 缺失值分类 在对缺失数据进行处理前,了解数据缺失的机制和形式是十分必要的.将数据集中不含缺失值的变量称为完全变量,数据集中含有缺失值的变量称为不完全变量.从缺失的分布来将缺失可以分为完全随机缺失,随机缺失和完全非随机缺失. 完全随机缺失(missing completely at random,MCAR):指的是数据的缺失是完全随机的,不依赖于任何不…