pandas用浮点值Nan表示浮点和非浮点数组中的缺失数据。它只是一个便于被检测的标记而已。

>>> string_data = Series(['aardvark','artichoke',np.nan,'avocado'])

>>> string_data

0     aardvark

1    artichoke

2          NaN

3      avocado

dtype: object

>>> string_data.isnull()

0    False

1    False

2     True

3    False

dtype: bool

>>> string_data.notnull()

0     True

1     True

2    False

3     True

dtype: bool

>>> string_data.fillna("miss")

0     aardvark

1    artichoke

2         miss

3      avocado

dtype: object

>>> string_data

0     aardvark

1    artichoke

2          NaN

3      avocado

dtype: object

NA处理方法

方法	说明
dropna	根据个标签中的是否存在缺失数据进行过滤，可以通过阈值进行调整
fillna	用指定值或插值来填充缺失数据
isnull	返回一个含有布尔值的对象，这些布尔值表示哪些是缺失值，给对象的类型与原类型一样
notnull	isnull的否定式

特别说明dropna方法：

　　常用参数：

　　　　axis 指定轴

　　　　how ：“any/all” any代表只有有缺失值，all代表一列全部缺失

　　　　thresh; 代表最少notnull值的个数，是一个整型。

滤除缺失数据

对于Series有两种方法实现：

>>> from numpy import nan as NA

>>>

>>>

>>> data = Series([1,NA,3.2,NA,5])

>>> data

0    1.0

1    NaN

2    3.2

3    NaN

4    5.0

dtype: float64

#方法一

>>> data.dropna()

0    1.0

2    3.2

4    5.0

dtype: float64

#方法二

>>> data[data.notnull()]

0    1.0

2    3.2

4    5.0

dtype: float64

而对于DataFrame对象，事情就有点复杂了。dropna默认丢弃任何含有缺失值的行。

>>> frame = DataFrame([[1,6.5,3],[1,NA,NA],[NA,NA,NA],[NA,6.5,3]])

>>>

>>>

>>>

>>> frame

     0    1    2

0  1.0  6.5  3.0

1  1.0  NaN  NaN

2  NaN  NaN  NaN

3  NaN  6.5  3.0

>>> clean_data = frame.dropna()#默认丢弃所有含有缺失值的行

>>> clean_data

     0    1    2

0  1.0  6.5  3.0

>>> frame.dropna(how ='all')#只丢弃全部是缺失值的行

     0    1    2

0  1.0  6.5  3.0

1  1.0  NaN  NaN

3  NaN  6.5  3.0

>>> frame.dropna(axis = 1 ,how='all')#丢弃全部是缺失值的列

     0    1    2

0  1.0  6.5  3.0

1  1.0  NaN  NaN

2  NaN  NaN  NaN

3  NaN  6.5  3.0

>>> frame.dropna(thresh =2)#丢弃剩余少于2个真实值的行

     0    1    2

0  1.0  6.5  3.0

3  NaN  6.5  3.0

>>>

填充缺失数据

对于DataFrame对象

>>> df = DataFrame(np.random.randn(7,3))

>>> df.ix[:4 ,1] = NA

>>> df.ix[:2,2] =NA

>>> df

          0         1         2

0 -1.362151       NaN       NaN

1 -0.465262       NaN       NaN

2  0.037518       NaN       NaN

3 -2.895224       NaN -2.514141

4 -0.635875       NaN  1.722823

5 -0.479897  0.999354 -0.547433

6 -0.744960  0.363400  0.706812

>>> df.fillna(0) #元素级填充

          0         1         2

0 -1.362151  0.000000  0.000000

1 -0.465262  0.000000  0.000000

2  0.037518  0.000000  0.000000

3 -2.895224  0.000000 -2.514141

4 -0.635875  0.000000  1.722823

5 -0.479897  0.999354 -0.547433

6 -0.744960  0.363400  0.706812

#根据不同的列填充不同的数值

>>> df.fillna({1:0.5,2:-1 })

          0         1         2

0 -1.362151  0.500000 -1.000000

1 -0.465262  0.500000 -1.000000

2  0.037518  0.500000 -1.000000

3 -2.895224  0.500000 -2.514141

4 -0.635875  0.500000  1.722823

5 -0.479897  0.999354 -0.547433

6 -0.744960  0.363400  0.706812

>>> df.fillna(method ='bfill')#method方法选择前向或后向填充

          0         1         2

0 -1.362151  0.999354 -2.514141

1 -0.465262  0.999354 -2.514141

2  0.037518  0.999354 -2.514141

3 -2.895224  0.999354 -2.514141

4 -0.635875  0.999354  1.722823

5 -0.479897  0.999354 -0.547433

6 -0.744960  0.363400  0.706812

>>> df.fillna(method ='bfill',limit =2)#限制后向填充为两行

          0         1         2

0 -1.362151       NaN       NaN

1 -0.465262       NaN -2.514141

2  0.037518       NaN -2.514141

3 -2.895224  0.999354 -2.514141

4 -0.635875  0.999354  1.722823

5 -0.479897  0.999354 -0.547433

6 -0.744960  0.363400  0.706812

>>>

fillna默认会返回新对象，如果需要就地修改元数据，可以加上inplace = True

>>> df.fillna(0,inplace = True)

>>> df

          0         1         2

0 -1.362151  0.000000  0.000000

1 -0.465262  0.000000  0.000000

2  0.037518  0.000000  0.000000

3 -2.895224  0.000000 -2.514141

4 -0.635875  0.000000  1.722823

5 -0.479897  0.999354 -0.547433

6 -0.744960  0.363400  0.706812

fillna函数的参数

参数	说明
method	前向或后向填充
value	待填充的值或字典对象
axis	待填充的轴
inplace	修改调用者对象而不产生副本
limit	前向或后向填充的最大数量

层次化索引

能使你在一个轴上拥有多个索引级别。

创建层次化索引

>>> data = Series(np.random.randn(10),index=[['a','a','a','b','b','b','c','c','d','d'],[1,2,3,1,2,3,1,2,1,2]])

>>> data

a  1   -0.450814

   2   -0.776317

   3   -0.140582

b  1   -0.717184

   2    0.943802

   3    0.972454

c  1   -0.390725

   2   -1.340875

d  1   -0.648987

   2   -0.960173

dtype: float64

>>> data.index

MultiIndex(levels=[['a', 'b', 'c', 'd'], [1, 2, 3]],

           labels=[[0, 0, 0, 1, 1, 1, 2, 2, 3, 3], [0, 1, 2, 0, 1, 2, 0, 1, 0, 1]])

>>>

利用层次化索引来选取子集

>>> data['a']

1   -0.450814

2   -0.776317

3   -0.140582

dtype: float64

>>> data['c':'d']

c  1   -0.390725

   2   -1.340875

d  1   -0.648987

   2   -0.960173

dtype: float64

>>> data.ix[['a','c']]

a  1   -0.450814

   2   -0.776317

   3   -0.140582

c  1   -0.390725

   2   -1.340875

dtype: float64

选择内层子集

>>> data['a',2]

-0.7763173836675796

>>> data[:,2]

a   -0.776317

b    0.943802

c   -1.340875

d   -0.960173

dtype: float64

利用stack和unstack可以实现层次化索引的Series和DataFrame的转换

>>> frame

     0    1    2

0  1.0  6.5  3.0

1  1.0  NaN  NaN

2  NaN  NaN  NaN

3  NaN  6.5  3.0

>>> frame.stack()

0  0    1.0

   1    6.5

   2    3.0

1  0    1.0

3  1    6.5

   2    3.0

dtype: float64

>>> data.unstack()

          1         2         3

a -0.450814 -0.776317 -0.140582

b -0.717184  0.943802  0.972454

c -0.390725 -1.340875       NaN

d -0.648987 -0.960173       NaN

重排分级顺序

swaplevel根据给定的编号或name属性进行交换层次化索引

sortlevel 根据给定的级别的值进行排序

>>> frame = DataFrame(np.random.randn(5,4),index = [['a','a','a','b','b'],[1,2,3,1,2]],columns = pd.MultiIndex.from_arrays([['o','o','w','w'],[1,2,1,2]],names=['color','num']))

>>> frame

color         o                   w

num           1         2         1         2

a 1    1.558178  1.614265  0.674642 -0.269209

  2   -0.324755 -0.486829 -1.086918 -0.496748

  3    0.283367 -0.518154  0.551998  0.747767

b 1    0.904257  1.315240  0.328065 -0.006465

  2    0.249438  0.946020  1.572290 -0.198329

>>> frame.index.names = ['name','age']

>>> frame

color            o                   w

num              1         2         1         2

name age

a    1    1.558178  1.614265  0.674642 -0.269209

     2   -0.324755 -0.486829 -1.086918 -0.496748

     3    0.283367 -0.518154  0.551998  0.747767

b    1    0.904257  1.315240  0.328065 -0.006465

     2    0.249438  0.946020  1.572290 -0.198329

>>> frame.swaplevel('name','age')

color            o                   w

num              1         2         1         2

age name

1   a     1.558178  1.614265  0.674642 -0.269209

2   a    -0.324755 -0.486829 -1.086918 -0.496748

3   a     0.283367 -0.518154  0.551998  0.747767

1   b     0.904257  1.315240  0.328065 -0.006465

2   b     0.249438  0.946020  1.572290 -0.198329

>>> frame.sortlevel(1)

__main__:1: FutureWarning: sortlevel is deprecated, use sort_index(level= ...)

color            o                   w

num              1         2         1         2

name age

a    1    1.558178  1.614265  0.674642 -0.269209

b    1    0.904257  1.315240  0.328065 -0.006465

a    2   -0.324755 -0.486829 -1.086918 -0.496748

b    2    0.249438  0.946020  1.572290 -0.198329

a    3    0.283367 -0.518154  0.551998  0.747767

>>> frame.sort_index(level = 1)#以后sortlevel会废弃，这里可以用sort_index的level选项排序

color            o                   w

num              1         2         1         2

name age

a    1    1.558178  1.614265  0.674642 -0.269209

b    1    0.904257  1.315240  0.328065 -0.006465

a    2   -0.324755 -0.486829 -1.086918 -0.496748

b    2    0.249438  0.946020  1.572290 -0.198329

a    3    0.283367 -0.518154  0.551998  0.747767

可以根据级别汇总统计

许多对DataFrame和Series的描述和汇总统计都有一个level选项，用于指定在某条轴上算术运算的级别

>>> frame.sum(level = 'age')

color         o                   w

num           1         2         1         2

age

1      2.462435  2.929505  1.002707 -0.275673

2     -0.075318  0.459191  0.485372 -0.695077

3      0.283367 -0.518154  0.551998  0.747767

>>> frame.sum(level = 'color',axis =1)

color            o         w

name age

a    1    3.172443  0.405433

     2   -0.811584 -1.583666

     3   -0.234786  1.299765

b    1    2.219497  0.321600

     2    1.195458  1.373961

>>>

使用DataFrame的列完成层次化行索引的转化

>>> frame = DataFrame({'a':range(7),'b':range(7,0,-1),'c':['o','o','o','t','t','f','f'],'d':[1,2,3,4,1,2,3]})

>>> frame

   a  b  c  d

0  0  7  o  1

1  1  6  o  2

2  2  5  o  3

3  3  4  t  4

4  4  3  t  1

5  5  2  f  2

6  6  1  f  3

>>> frame2 = frame.set_index(['c','d'])#将一个或多个列转换为行索引

>>> frame2

     a  b

c d

o 1  0  7

  2  1  6

  3  2  5

t 4  3  4

  1  4  3

f 2  5  2

  3  6  1

>>> frame2.reset_index(['c','d'])#将层次化索引转换为列

   c  d  a  b

0  o  1  0  7

1  o  2  1  6

2  o  3  2  5

3  t  4  3  4

4  t  1  4  3

5  f  2  5  2

6  f  3  6  1

在将列转换为层次化行索引的时候，默认会删除原来的列，如果要保留的话，需要drop选项

>>> frame3 = frame.set_index(['c','d'],drop=False)

>>> frame3

     a  b  c  d

c d

o 1  0  7  o  1

  2  1  6  o  2

  3  2  5  o  3

t 4  3  4  t  4

  1  4  3  t  1

f 2  5  2  f  2

  3  6  1  f  3

pandas（五）处理缺失数据和层次化索引的更多相关文章

利用Python进行数据分析(10) pandas基础: 处理缺失数据
数据不完整在数据分析的过程中很常见. pandas使用浮点值NaN表示浮点和非浮点数组里的缺失数据. pandas使用isnull()和notnull()函数来判断缺失情况. 对于缺失数据一般处理 ...
pandas 4 处理缺失数据nan
from __future__ import print_function import pandas as pd import numpy as np np.random.seed(1) dates ...
Pandas汇总和处理缺失数据
汇总的函数方法说明 count 非NA的值数量 describe 针对Series和DataFrame列计算汇总统计 min.max 计算最小值和最大值 argmin.argmax 计算能够获取到 ...
Pandas基本功能之层次化索引及层次化汇总
层次化索引层次化也就是在一个轴上拥有多个索引级别 Series的层次化索引 data=Series(np.random.randn(10),index=[ ['a','a','a','b','b', ...
pandas：由列层次化索引延伸的一些思考
1. 删除列层次化索引用pandas利用df.groupby.agg() 做聚合运算时遇到一个问题:产生了列方向上的两级索引,且需要删除一级索引.具体代码如下: # 每个uesr每天消费金额统计:和 ...
pandas知识点（处理缺失数据）
pandas使用浮点值NaN表示浮点和非浮点数组中的缺失数据: In [14]: string_data = Series(['aardvark','artichoke',np.nan,'avocad ...
pandas中层次化索引与切片
Pandas层次化索引 1. 创建多层索引隐式索引: 常见的方式是给dataframe构造函数的index参数传递两个或是多个数组 Series也可以创建多层索引 Series多层索引 B =Ser ...
(三）pandas 层次化索引
pandas层次化索引 1. 创建多层行索引 1) 隐式构造最常见的方法是给DataFrame构造函数的index参数传递两个或更多的数组 Series也可以创建多层索引 import numpy ...
利用Python进行数据分析(11) pandas基础: 层次化索引
层次化索引层次化索引指你能在一个数组上拥有多个索引,例如: 有点像Excel里的合并单元格对么? 根据索引选择数据子集以外层索引的方式选择数据子集: 以内层索引的方式选择数据: 多重索引S ...

随机推荐

转载：ffmpeg 音视频合成分割
http://blog.csdn.net/jixiuffff/article/details/5709976 当然先安装了 gentoo 下一条命令搞定 emerge ffmpeg 格式转换 (将f ...
如何编写Makefile？
//swap.c #include<stdio.h> int swap(int *x,int *y) {printf("a=%d b=%d\n",*x,*y); int ...
Tuning 14 Using Oracle Data Storage Structures Efficiently
90% 是Heap table Cluster 集群表, index-organized table: 就是把索引和表和二为一了. partitioned table:表非常大, 逻辑上是一个大表, ...
oracle+SQL优化实例
1. 减少I/O操作: SELECT COUNT(CASE WHEN empno>20 THEN 1 END) c1,COUNT(CASE WHEN empno<20 THEN 1 ...
利用多态，实现一般处理程序（ashx）中的AOP（切面编程）
本文是对工作中的项目进行代码优化(完善登陆验证的AOP切面编程)时,所遇到的各种解决方案思考过程. 项目背景:由ashx+nvelocity构建的简单B/S问卷系统,现需要优化登录验证环节(时隔若干个 ...
Java释出的时候，AWT作为Java最弱的组件受到不小的批评
Java释出的时候,AWT作为Java最弱的组件受到不小的批评. 最根本的缺点是AWT在原生的用户界面之上仅提供了一个非常薄的抽象层. 例如,生成一个AWT的复选框会导致AWT直接调用下层原生例程来 ...
Abstract Window Toolkit（AWT）是一个图形过程库
Abstract Window Toolkit(AWT)是一个图形过程库,使用Java语言通过位图显示来操纵窗口.最后设计者又将AWT扩充为Alternative Window工具箱和Applet W ...
【转】MFC OnIdle的详细说明
转载出处:http://blog.csdn.net/tsing_best/article/details/25055707 CWinApp::OnIdlevirtual BOOL OnIdle( LO ...
Linux系统中last命令的用法
1.作用 linux系统中last命令的作用是显示近期用户或终端的登录情况,它的使用权限是所有用户.通过last命令查看该程序的log,管理员可以获知谁曾经或企图连接系统. 2.格式 last [—R ...
简单的php基于curl的反向代理程序
起因: 经理:需要实现一个反向代理? 我: 简单,nginx分分钟配置好. 经理:嗯?没有nginx? 我: nodejs也行啊,网上有例子分分钟搞定. 经理:嗯?只有虚拟主机,只能上传php程序? ...

pandas（五）处理缺失数据和层次化索引