Python数据分析（二）pandas缺失值处理

import pandas as pd

import numpy as np

df = pd.DataFrame(np.random.randn(5, 3), index=['a', 'c', 'e', 'f',

'h'],columns=['one', 'two', 'three'])

df = df.reindex(['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h'])

print(df)

print('################缺失值判断######################')

print('--------Series的缺失值判断---------')

print (df['one'].isnull())
'''

--------Series的缺失值判断---------

a    False

b     True

c    False

d     True

e    False

f    False

g     True

h    False

Name: one, dtype: bool

'''

print('---------输出Series缺失值和索引--------')

print(df['one'][df['one'].isnull()])
'''

---------输出Series缺失值和索引--------

b   NaN

d   NaN

g   NaN

Name: one, dtype: float64

'''

print('--------dataframe的缺失值判断---------')

print(df.isnull())
'''

--------dataframe的缺失值判断---------

     one    two  three

a  False  False  False

b   True   True   True

c  False  False  False

d   True   True   True

e  False  False  False

f  False  False  False

g   True   True   True

h  False  False  False

'''

print('--------输出dataframe的缺失值和索引---------')

data = df[df.isnull().values==True]

print(data[~data.index.duplicated()])
'''

--------输出dataframe的缺失值和索引---------

   one  two  three

b  NaN  NaN    NaN

d  NaN  NaN    NaN

g  NaN  NaN    NaN

'''

print('--------输出dataframe的有缺失值的列---------')

print(df.isnull().any())
'''

--------输出dataframe的有缺失值的列---------

one      True

two      True

three    True

dtype: bool

'''

print('################缺失值过滤######################')

print('--------Series的缺失值过滤---------')

print(df['one'].isnull())
'''

################缺失值过滤######################

--------Series的缺失值过滤---------

a    False

b     True

c    False

d     True

e    False

f    False

g     True

h    False

Name: one, dtype: bool

'''

print('--------使用dropna方法删除缺失数据,返回一个删除后的Series--------')

print(df['one'].dropna())
'''

--------使用dropna方法删除缺失数据,返回一个删除后的Series--------

a   -0.211055

c   -0.870090

e   -0.203259

f    0.490568

h    1.437819

Name: one, dtype: float64

'''

print('--------dataframe的缺失值过滤---------')

print(df.dropna())
'''

--------dataframe的缺失值过滤---------

        one       two     three

a -0.211055 -2.869212  0.022179

c -0.870090 -0.878423  1.071588

e -0.203259  0.315897  0.495306

f  0.490568 -0.968058 -0.999899

h  1.437819 -0.370934 -0.482307

'''

print('-------当行全为NaN的时候,才删除,参数how默认是any,含有缺失值就删除--------')

print(df.dropna(how="all"))
'''

-------当行全为NaN的时候,才删除,参数how默认是any,含有缺失值就删除--------

        one       two     three

a -0.211055 -2.869212  0.022179

c -0.870090 -0.878423  1.071588

e -0.203259  0.315897  0.495306

f  0.490568 -0.968058 -0.999899

h  1.437819 -0.370934 -0.482307

'''

print('################缺失值填充######################')

print('------指定特殊值填充缺失值-------')

print(df.fillna(0))
'''

################缺失值填充######################

------指定特殊值填充缺失值-------

        one       two     three

a -0.211055 -2.869212  0.022179

b  0.000000  0.000000  0.000000

c -0.870090 -0.878423  1.071588

d  0.000000  0.000000  0.000000

e -0.203259  0.315897  0.495306

f  0.490568 -0.968058 -0.999899

g  0.000000  0.000000  0.000000

h  1.437819 -0.370934 -0.482307

'''

print('------不同的列用不同的值填充------')

print(df.fillna({'one':1,'two':2,'three':3}))
'''

------不同的列用不同的值填充------

        one       two     three

a -0.211055 -2.869212  0.022179

b  1.000000  2.000000  3.000000

c -0.870090 -0.878423  1.071588

d  1.000000  2.000000  3.000000

e -0.203259  0.315897  0.495306

f  0.490568 -0.968058 -0.999899

g  1.000000  2.000000  3.000000

h  1.437819 -0.370934 -0.482307

'''

print('------前向填充------')

print(df.fillna(method="ffill"))
'''

------前向填充------

        one       two     three

a -0.211055 -2.869212  0.022179

b -0.211055 -2.869212  0.022179

c -0.870090 -0.878423  1.071588

d -0.870090 -0.878423  1.071588

e -0.203259  0.315897  0.495306

f  0.490568 -0.968058 -0.999899

g  0.490568 -0.968058 -0.999899

h  1.437819 -0.370934 -0.482307

'''

print('------后向填充------')

print(df.fillna(method="bfill"))
'''

------后向填充------

        one       two     three

a -0.211055 -2.869212  0.022179

b -0.870090 -0.878423  1.071588

c -0.870090 -0.878423  1.071588

d -0.203259  0.315897  0.495306

e -0.203259  0.315897  0.495306

f  0.490568 -0.968058 -0.999899

g  1.437819 -0.370934 -0.482307

h  1.437819 -0.370934 -0.482307

'''

print('------平均值填充------')

print(df.fillna(df.mean()))
'''

------平均值填充------

        one       two     three

a -0.211055 -2.869212  0.022179

b  0.128797 -0.954146  0.021373

c -0.870090 -0.878423  1.071588

d  0.128797 -0.954146  0.021373

e -0.203259  0.315897  0.495306

f  0.490568 -0.968058 -0.999899

g  0.128797 -0.954146  0.021373

h  1.437819 -0.370934 -0.482307

'''

Python数据分析（二）pandas缺失值处理的更多相关文章

Python数据分析(二): Pandas技巧 (1)
第一部分: ipython http://www.cnblogs.com/cgzl/p/7623347.html 第二部分: numpy http://www.cnblogs.com/cgzl/p/7 ...
Python数据分析(二): Pandas技巧 (2)
Pandas的第一部分: http://www.cnblogs.com/cgzl/p/7681974.html github地址: https://github.com/solenovex/My-Ma ...
Python数据分析之pandas基本数据结构：Series、DataFrame
1引言本文总结Pandas中两种常用的数据类型: (1)Series是一种一维的带标签数组对象. (2)DataFrame,二维,Series容器 2 Series数组 2.1 Series数组构成 ...
Python数据分析库pandas基本操作
Python数据分析库pandas基本操作2017年02月20日 17:09:06 birdlove1987 阅读数:22631 标签: python 数据分析 pandas 更多个人分类: Pyt ...
Python 数据分析：Pandas 缺省值的判断
Python 数据分析:Pandas 缺省值的判断背景我们从数据库中取出数据存入 Pandas None 转换成 NaN 或 NaT.但是,我们将 Pandas 数据写入数据库时又需要转换成 No ...
Python数据分析之pandas学习
Python中的pandas模块进行数据分析. 接下来pandas介绍中将学习到如下8块内容:1.数据结构简介:DataFrame和Series2.数据索引index3.利用pandas查询数据4.利 ...
Python数据分析之pandas
Python中的pandas模块进行数据分析. 接下来pandas介绍中将学习到如下8块内容:1.数据结构简介:DataFrame和Series2.数据索引index3.利用pandas查询数据4.利 ...
Python数据分析之Pandas操作大全
从头到尾都是手码的,文中的所有示例也都是在Pycharm中运行过的,自己整理笔记的最大好处在于可以按照自己的思路来构建矿建,等到将来在需要的时候能够以最快的速度看懂并应用=_= 注:为方便表述,本章设 ...
Python数据分析(二): Numpy技巧 (1/4)
In [1]: import numpy numpy.__version__ Out[1]: '1.13.1' In [2]: import numpy as np
Python数据分析(二): Numpy技巧 (2/4)
numpy.pandas.matplotlib(+seaborn)是python数据分析/机器学习的基本工具. numpy的内容特别丰富,我这里只能介绍一下比较常见的方法和属性. 昨天晚上发了第一 ...

随机推荐

kali linux 安装谷歌浏览器
kali linux 版本 2018.2 先下载谷歌浏览器安装包 wget https://dl.google.com/linux/direct/google-chrome-stable_curren ...
linux下的shadow文件解释
/etc/shadow //用户密码文件登录名:加密口令:最后一次修改时间:最小时间间隔:最大时间间隔:警告时间:不活动时间:失效时间:标志 root:$1$202cb962ac59075b964b0 ...
php 微信客服信息推送失败微信重复推送客服消息 40001 45047
/*** * 微信客服发送信息 * 微信客服信息推送失败微信重复推送客服消息 40001 45047 * 递归提交到微信直到提交成功 * @param $openid * @param int $ ...
dos命令操作数据库（上）
1.cd到mysql安装目录bin目录: 2.输入id.用户名和密码: 3.查看数据库实例: 4.创建一个实例: 5.删除一个实例: 6.创建一个表: 7.删除一个表: 8.表结构: 9.修改表: 你 ...
SQL命令（三）
数据完整性约束 1)数据完整性约束包含:实体完整性.参照完整性.用户定义完整性. CREATE TABLE table( id INT NOT NULL AUTO_INCREMENT PRIMARY ...
LeetCode 二叉树的层次遍历 C++
给定一个二叉树,返回其按层次遍历的节点值. (即逐层地,从左到右访问所有节点). 例如:给定二叉树: [3,9,20,null,null,15,7], 3 / \ 9 20 / \ 15 7 返回其层 ...
SocketServer模块中的几种类
BaseServer:包括服务器的核心功能与混合类的一些功能. TCPServer:基本的网络同步TCP服务器. UDPServer:基本的网络同步UDP服务器. ForkingMixIn:实现了核心 ...
2019年第十届蓝桥杯C/C++程序设计本科B组省赛 E迷宫
试题 E: 迷宫本题总分: 分 [问题描述] 下图给出了一个迷宫的平面图,其中标记为的为障碍,标记为的为可以通行的地方. 迷宫的入口为左上角,出口为右下角,在迷宫中,只能从一个位置走到这个它 ...
app:showAsAction 和android:showAsAction
app:showAsAction 它有三个可选项1.always:总是显示在界面上2.never:不显示在界面上,只让出现在右边的三个点中3.ifRoom:如果有位置才显示,不然就出现在右边的三个点中 ...
一个关于sql更新的小笔记
一直在sqlserver下写东西,突然用mysql有些语法发生了改变,有点折腾 (MS SQL Server)语句:update A set a.Name = b.Name from A ...

Python数据分析（二）pandas缺失值处理

Python数据分析（二）pandas缺失值处理的更多相关文章

随机推荐

热门专题