一、了解缺失值

通常使用 NA('not available')来代指缺失值
在Pandas的数据结构中，缺失值使用 NaN('Not a Number')进行标识

除了汇总统计方法，还可以使用isnull()来对数据中缺失的样本占比、特征大致的缺失情况进行了解。

>>> df =pd.DataFrame({'one':pd.Series([1,2,3],index=['a','b','c']),

...                   'two':pd.Series([1,3,2,7],index=['a','b','c','d']),

...                   'three':pd.Series([3,8,3],index=['d','a','c'])})

>>> df

   one  two  three

a  1.0    1    8.0

b  2.0    3    NaN

c  3.0    2    3.0

d  NaN    7    3.0

#缺失值的数量分析

>>> df.isnull()

     one    two  three

a  False  False  False

b  False  False   True

c  False  False  False

d   True  False  False

>>> df.isnull().sum()

one      1

two      0

three    1

dtype: int64

二、缺失值填充

　　使用fillna()方法进行缺失值填补

填充方式分为以下几种：

（1）使用同一个值填补所有的缺失值

>>> df.fillna('用我填充')

    one  two three

a     1    1     8

b     2    3  用我填充

c     3    2     3

d  用我填充    7     3

（2）向前填充、向后填充--->通过设置参数method参数来实现

method参数	说明
ffill或pad	向前填充值
bfill或backfill	向后填充值

#向前填充

>>> df.fillna(method='pad')

   one  two  three

a  1.0    1    8.0

b  2.0    3    8.0

c  3.0    2    3.0

d  3.0    7    3.0

#向后填充

>>> df.fillna(method='bfill')

   one  two  three

a  1.0    1    8.0

b  2.0    3    3.0

c  3.0    2    3.0

d  NaN    7    3.0

（3）对不同列的缺失值使用不同的值进行填补

　　可以使用列表的方式，如下：

>>> df.fillna({'one':1,'three':3})

   one  two  three

a  1.0    1    8.0

b  2.0    3    3.0

c  3.0    2    3.0

d  1.0    7    3

（4）使用一个Pandas的自动对齐功能进行填补

　　　这也是最常使用的一种方式

>>> df.fillna(df.mean())

   one  two     three

a  1.0    1  8.000000

b  2.0    3  4.666667

c  3.0    2  3.000000

d  2.0    7  3.000000

6-Pandas之缺失值处理的更多相关文章

Python Pandas找到缺失值的位置
python pandas判断缺失值一般采用 isnull(),然而生成的却是所有数据的true/false矩阵,对于庞大的数据dataframe,很难一眼看出来哪个数据缺失,一共有多少个缺失数据,缺 ...
pandas判断缺失值的办法
参考这篇文章: https://blog.csdn.net/u012387178/article/details/52571725 python pandas判断缺失值一般采用 isnull(),然而 ...
Pandas对缺失值的处理
Pandas使用这些函数处理缺失值: isnull和notnull:检测是否是空值,可用于df和series dropna:丢弃.删除缺失值 axis : 删除行还是列,{0 or 'index', ...
pandas 处理缺失值（连续值取平均，离散值fillna"<unk>"）
# 2.1处理缺失值,连续值用均值填充 continuous_fillna_number = [] for i in train_null_ix: if(i in continuous_ix): me ...
python-数据描述与分析2（利用Pandas处理数据缺失值的处理数据库的使用）
2.利用Pandas处理数据2.1 汇总计算当我们知道如何加载数据后,接下来就是如何处理数据,虽然之前的赋值计算也是一种计算,但是如果Pandas的作用就停留在此,那我们也许只是看到了它的冰山一角,它 ...
Python数据分析之pandas学习
Python中的pandas模块进行数据分析. 接下来pandas介绍中将学习到如下8块内容:1.数据结构简介:DataFrame和Series2.数据索引index3.利用pandas查询数据4.利 ...
Python pandas 0.19.1 Intro to Data Structures 数据结构介绍文档翻译
官方文档链接http://pandas.pydata.org/pandas-docs/stable/dsintro.html 数据结构介绍我们将以一个快速的.非全面的pandas的基础数据结构概述来 ...
python 数据分析--pandas
接下来pandas介绍中将学习到如下8块内容:1.数据结构简介:DataFrame和Series2.数据索引index3.利用pandas查询数据4.利用pandas的DataFrames进行统计分析 ...
Pandas 常见的基本方法
说明:文章所有内容均截选自实验楼教程[Pandas 使用教程],想要查看教程完整内容,点击教程即可~ 前言: Pandas 是非常著名的开源数据处理工具,我们可以通过它对数据集进行快速读取.转换.过滤 ...
pandas常用
#python中的pandas库主要有DataFrame和Series类(面向对象的的语言更愿意叫类) DataFrame也就是#数据框(主要是借鉴R里面的data.frame),Series也就是序 ...

随机推荐

乐观锁&CAS问题
悲观者与乐观者的做事方式完全不一样,悲观者的人生观是一件事情我必须要百分之百完全控制才会去做,否则就认为这件事情一定会出问题:而乐观者的人生观则相反,凡事不管最终结果如何,他都会先尝试去做,大不了最后 ...
浏览器缓存_HTTP强缓存和协商缓存
浏览器缓存浏览器缓存是浏览器在本地磁盘对用户最近请求过的文档进行存储,当访问者再次访问同一页面时,浏览器就可以直接从本地磁盘加载文档. 所以根据上面的特点,浏览器缓存有下面的优点: 减少冗余的数据传 ...
vue 3.0 体验，vue 3.0新特性
前言昨天不是尤雨溪不是刚在B站直播玩了,分享了vue-next v3.0.0-beta.1 版本哈哈, 不要太刺激哦 6大亮点 Performance:性能更比Vue 2.0强. Tree s ...
简单的MVC框架
效果图: 源码下载:https://github.com/doyoulaikeme/DotNetSample/tree/master/DotNetSample4/easyMVCFramework
Scala 基础（二）：sbt介绍与构建Scala项目
一.sbt简介 sbt是类似ANT.MAVEN的构建工具,全称为Simple build tool,是Scala事实上的标准构建工具. 主要特性: 原生支持编译Scala代码和与诸多Scala测试框架 ...
爬虫页面解析 lxml 简单教程
一.与字符串的相互转换 1.字符串转变为etree 对象 import lxml.html tree = lxml.html.fromstring(content) # content 字符串对象 2 ...
C# - 设计- Struct与Class的选择
选择Struct的原则该类型的实例较小且通常为短生存期,或者通常嵌入到其他对象中. 它以逻辑方式表示单个值,类似于基元类型( int .等 double ). 它的实例大小为16字节. 它是不可变的 ...
Python 爬取 42 年高考数据，告诉你高考为什么这么难？
作者 | 徐麟历年录取率可能很多经历过高考的人都不知道高考的全称,高考实际上是普通高等学校招生全国统一考试的简称.从1977年国家恢复高考制度至今,高考经历了许多的改革,其中最为显著的变化就是录取 ...
IDEA 2020版破解
这期教一下大家如何破解IDEA 最新版破解教程有以前的idea建议卸载哈~安装最新版的版本一:我们首先去idea官网下载最新版下方是idae官网2020最新链接 https://www.jetb ...
Nginx之伪404（ root与alias ）
目录一.现象二.root与alias的区别三.建议四.写在最后一.现象人类善于伪装,机器某些时候也善于伪装:Nginx请求看到404,第一反应就是文件不存在:但我们去检查的时候,它就正 ...

6-Pandas之缺失值处理

一、了解缺失值

二、缺失值填充

6-Pandas之缺失值处理的更多相关文章

随机推荐

热门专题