pandas模块常用函数解析之DataFrame

关注公众号“轻松学编程”了解更多。

以下命令都是在浏览器中输入。

cmd命令窗口输入：jupyter notebook

一、导入模块

import numpy as np

import pandas as pd

from pandas import Series,DataFrame

二、DataFrame

DataFrame是一个【表格型】的数据结构。DataFrame由按一定顺序排列的多列数据组成。设计初衷是将Series的使用场景从一维拓展到多维。DataFrame既有行索引，也有列索引。

行索引：index
列索引：columns
值：values

1、 DataFrame的创建

1.1 使用ndarray创建DataFrame

DataFrame(data=np.random.randint(60,100,size=(2,3)),

         index=['期中','期末'],

         columns=['张三','李四','王老五'])

1.2 使用字典创建

最常用的方法是传递一个字典来创建。DataFrame以字典的键作为每一【列】的名称，以字典的值（一个数组）作为每一列。

此外，DataFrame会自动加上每一行的索引。

使用字典创建的DataFrame后，则columns参数将不可被使用。

同Series一样，若传入的列与字典的键不匹配，则相应的值为NaN。

dic={

    '期中':[50,60,70],

    '期末':[80,90,89]

}

#使用字典创建一个DataFrame

df=DataFrame(data=dic,index=['张三','李四','王老五'])

df

1.3 DataFrame属性：values、columns、index、shape

2、 DataFrame的索引

2.1 对列进行索引

通过类似字典的方式 df[‘q’]
通过属性的方式 df.q

可以将DataFrame的列获取为一个Series。返回的Series拥有原DataFrame相同的索引，且name属性也已经设置好了，就是相应的列名。

#修改列索引

df.columns=['qizhong','qimo']

df

df['qizhong]

df.qizhong

df[['qizhong','qimo']]

2.2 对行进行索引

使用.loc[]加index来进行行索引
使用.iloc[]加整数来进行行索引
同样返回一个Series，index为原来的columns。

df.loc['李四']

df.iloc[1]

2.3 对元素进行索引的方法

使用列索引
使用行索引(iloc[3,1] or loc[‘C’,‘q’]) 行索引在前，列索引在后

df.loc['王老五','qimo']

3、切片

使用冒号进行切片。

3.1 使用中括号

df['张三':'李四']

3.2 使用loc和iloc中

如： df.loc[‘B’:‘C’,‘丙’:‘丁’]

df.loc[:'李四','qizhong':'qimo']  #结合numpy中的二维数组理解

【注意】直接用中括号时：

索引表示的是列索引
切片表示的是行切片

4、 DataFrame的运算

DataFrame之间的运算

同Series一样：

在运算中自动对齐不同索引的数据
如果索引不对应，则补NaN

4.1 DataFrame之间的运算

df1=df.copy()  #创建df的一个副本

df1.loc['jay']=[99,88]  #给df1添加一行

df1

df1['AAA']=[1,2,3,4]  #给df1添加一列

df1

df+df1

下面是Python 操作符与pandas操作函数的对应表：

Python Operator	Pandas Method(s)
`+`	`add()`
`-`	`sub()`, `subtract()`
`*`	`mul()`, `multiply()`
`/`	`truediv()`, `div()`, `divide()`
`//`	`floordiv()`
`%`	`mod()`
`**`	`pow()`

5、DataFrame的去重

df.drop_duplicates(subset=None, keep=‘first’, inplace=False)

参数：

subset：指定是哪些列重复
keep：去重后留下第几行，{‘first’, ‘last’, False}, default ‘first’｝
如果是False，则去除全部重复的行。
inplace：是否作用于原来的df

df = pd.DataFrame(data=[[1,2,3],

                        [1,2,4],

                        [1,2,4],

                        [1,2,3],

                        [1,2,5],

                        [1,2,5]],

                 columns=['a','b','c'])

df

#去除重复行,保留重复行中最后一行

df.drop_duplicates(keep='last')

#去除'c'列中有重复的值所在的行

df.drop_duplicates(subset=('c',))

#去除重复行，默认保留重复行中第一行，作用于原来的df

df.drop_duplicates(inplace=True)

df

三、处理丢失数据

有两种丢失数据类型：

None
np.nan(NaN)

1. None

None是Python自带的，其类型为python object。因此，None不能参与到任何计算中。

#查看None的数据类型

type(None)

结果为：

NoneType

2. np.nan(NaN)

np.nan是浮点类型，能参与到计算中。但计算的结果总是NaN。

type(np.nan)

结果为：

float

np.nan+10

结果为：

nan

object类型的运算要比int类型的运算慢得多

计算不同数据类型求和时间

%timeit np.arange(1e5,dtype=object).sum()

%timeit np.arange(1e5,dtype=float).sum()

object：运行时间的8.09ms;
float：运行时间是3.159us，可看出使用object做运算，很耗时。

3. pandas中的None与NaN

3.1 pandas中None与np.nan都视作np.nan

在pandas中，None和np.nan统一处理成NAN，numpy并不处理。

处理成NaN，float型，可用于计算，计算结果为NaN.

3.2 pandas处理空值操作

isnull()如果为NaN就返回True，否则返回False
notnull() 如果为NaN就返回False，否则返回True
dropna(): 过滤丢失数据(NaN)
fillna(): 填充丢失数据(NaN)

#创建DataFrame，给其中某些元素赋值为nan

df=DataFrame(np.random.randint(1,100,size=(4,6)),

            index=['A','B','C','D'],

            columns=['a','b','c','d','e','f'])

df

#将空值赋值给df中的某些元素

df.loc['A','c']=np.nan

df.loc['C','c']=None

df.loc['B','d']=None

df

(1)判断函数

isnull()
notnull()

（2）df.notnull().any()/all()

#.any()相当于“或”，只要有一个为True，结果就为True

df.notnull().any() #axis=0,列

判断哪些行中存在空值

#.all()相当于"与"，只要有一个为False，结果就为False

df.notnull().all(axis=1)

结果说明只有D行没有空值。

过滤空值：

#1.判断哪些行中存在空值

condition=df.notnull().all(axis=1)

#2.过滤空值

#df.loc[[True,True,True,False]]

df.loc[condition]

df.dropna() 可以选择过滤的是行还是列（默认为行）:axis中0表示行，1表示的列。

过滤带空值的列

df.dropna(axis=1)

how参数：有两个值’all’表示是所有为空值才过滤；'any’表示有一个为空值就过滤。

默认为’any’，一般使用’any’。

3.3 填充函数

适用于 Series和DataFrame 。

fillna():value和method参数。

value参数表示的是给NAN填充的数据值：

df.fillna(value=0)

method 控制填充的方式有4种选择，常用(bfill和ffill) 前向填充还是后向填充。

#向前填充，NaN的值用行前面的值代替

#axis=0,则用列前面的值代替

#如果前面没有值，则还是NaN

df.fillna(method='ffill',axis=1)

limit 参数：控制填充的次数

df.loc['B','c']=None

df

#向后填充，列后面的值代替NaN，只填充2次

df.fillna(method='bfill',axis=0,limit=2)

四、创建多层列索引

#导入库

import numpy as np

import pandas as pd

from pandas import Series,DataFrame

1、隐式构造

最常见的方法是给DataFrame构造函数的index或者columns参数传递两个或更多的数组

DataFrame(data=np.random.randint(60,120,size=(2,4)),

         columns=[['qizhong','qizhong','qimo','qimo'],

                  ['chinese','math','chinese','math']],

         index=['tom','jay'])

2、显示构造pd.MultiIndex.from_

2.1 使用数组

#创建了一个索引对象，该索引对象为二层索引

col=pd.MultiIndex.from_arrays([['qizhong','qizhong','qimo','qimo'],

                           ['chinese','math','chinese','math']])

#创建DF对象

DataFrame(data=np.random.randint(60,120,size=(2,4)),index=['tom','jay'],

         columns=col)

2.2 使用tuple (元组)

#构建索引对象

col=pd.MultiIndex.from_tuples((('qizhong','chinese'),

							   ('qizhong','math'),

							   ('qimo','chinese'),

							   ('qimo','math')))

#创建DF对象

DataFrame(data=np.random.randint(60,120,size=(2,4)),

		 index=['tom','jay'],

         columns=col)

2.3 使用product

最简单，推荐使用

#长江映射关系

col=pd.MultiIndex.from_product([['qizhong','qimo'],

                                ['chinese','math']])

#创建DF对象

DataFrame(data=np.random.randint(60,120,size=(2,4)),

		  index=['tom','jay'],

          columns=col)

五、创建多层行索引

除了行索引index，列索引columns也能用同样的方法创建多层索引

index=pd.MultiIndex.from_product([['qizhong','qimo'],

								['chinese','math']])

df=DataFrame(data=np.random.randint(60,120,size=(4,2)),

			index=index,

	        columns=['tom','jay'])

df

六、多层索引对象的索引与切片操作

1、 Series的操作

Series也会存在多级索引操作

s=Series(index=[['一级','一级','一级','二级','二级','二级'],

                ['A','B','C','D','E','F']],

         data=[11,22,33,44,55,66])

s

1.1 索引

【重要】对于Series来说，直接中括号[]与使用.loc()完全一样，

推荐使用.loc[]索引和切片。

不能跨级（索引级别：一级索引，二级索引）操作。

s.loc['一级']

1.2 切片

通过冒号进行切片

2、 DataFrame的操作

2.1 使用列名称来进行列索引

df['tom']['qizhong']

2.2 使用行名称来进行行索引

使用行索引需要用ix[]==iloc[]，loc[]

【极其重要】推荐使用loc()函数

df.loc['qimo'].loc['math']

df.ix[0]   #与df.iloc[0]效果一样

2.3 切片

#行切片

df.loc['qizhong']['chinese':]

#列切片

df.loc[:,'tom':'jay']

 总结：

访问一列或多列 直接用中括号[columnname]

				如： [[columname1,columnname2...]]

访问一行或多行  .loc[indexname]

访问某一个元素  .loc[indexname,columnname]

行切片          .loc[index1:index2]

列切片          .loc[:,column1:column2]

七、索引的堆(stack)

对矩阵的索引进行变换处理

stack()：把列索引变成行索引（从上到左）
unstack()：把行索引变成列索引（从左到上）

1、 stack()

删除列

#axis=1表示删除行，axis=0表示删除列

df.drop(['jarry'],axis=1,inplace=True)

df

#

df.stack()

2、 unstack()

df.unstack()

3、level参数

stack()和unstack()都有一个参数level，表示是把哪一级索引进行变换。

df.unstack(level=0)

【小技巧】使用stack()的时候，level等于哪一个，哪一个就消失，出现在行里。

【小技巧】使用unstack()的时候，level等于哪一个，哪一个就消失，出现在列里。

八、聚合操作

所谓的聚合操作：平均数，方差，最大值，最小值……

df.mean()

df.std(axis=0)  #方差

下面是Python 操作符与pandas操作函数的对应表：

Python Operator	Pandas Method(s)
`+`	`add()`
`-`	`sub()`, `subtract()`
`*`	`mul()`, `multiply()`
`/`	`truediv()`, `div()`, `divide()`
`//`	`floordiv()`
`%`	`mod()`
`**`	`pow()`

九、pandas的拼接操作

pandas的拼接分为两种：

级联：pd.concat, pd.append
合并：pd.merge, pd.join

1、级联

1.1 使用pd.concat()级联

#创建两个3*3的矩阵

df1=DataFrame(np.random.randint(0,100,size=(3,3)),

             index=['A','B','C'],columns=['a','b','c'])

df2=DataFrame(np.random.randint(0,100,size=(3,3)),

             index=['A','B','D'],columns=['a','b','d'])

pandas使用pd.concat函数进行级联，与np.concatenate函数类似，只是多了一些参数：

objs

axis=0

keys

join='outer' / 'inner':表示的是级联的方式，

		outer会将所有的项进行级联（忽略匹配和不匹配），

		而inner只会将匹配的项级联到一起，不匹配的不级联

ignore_index=False

pd.concat([df1,df2],axis=0)  #axis=0表示以列连接列的方式级联

pd.concat([df1,df2],axis=1) #axis=1表示以行连接行的方式级联

#keys可以用来增加多级索引，标记出原先的表

pd.concat([df1,df2],axis=1,keys=['df1','df2'])

1.2 不匹配级联

不匹配指的是级联的维度的索引不一致。例如纵向级联时列索引不一致，横向级联时行索引不一致

有2种连接方式：

外连接：补NaN（默认模式）
内连接：只连接匹配的项

#join默认为'outer',当join='inner'时表示不匹配的将不级联

pd.concat([df1,df2],axis=1,

			keys=['df1+++','df2+++'],join='inner')

不同行不同列的两个矩阵进行级联

df3=DataFrame(np.random.randint(0,100,size=(4,4)),

             index=['A','B','C','D'],

             columns=['a','b','c','d'])

df4=DataFrame(np.random.randint(0,100,size=(3,3)),

             index=['A','B','D'],

             columns=['a','b','d'])

pd.concat([df3,df4])

1.3 使用df.append()函数添加

由于在后面级联的使用非常普遍，因此有一个函数append专门用于在后面添加：

df1.append(df2) #相当于pd.concat([df1,df2],axis=0)

2、合并

使用pd.merge()合并

merge与concat的区别在于，merge需要依据某一共同的行或列来进行合并

使用pd.merge()合并时，会自动根据两者相同column名称的那一列，作为key来进行合并。

注意每一列元素的顺序不要求一致

参数：

how：outer取并集, inner取交集，left:左合并(包含左表的所有数据，不一定包含右表的所有数据)，right:右合并(跟左合并相反)
on：当有多列相同的时候，可以使用on来指定使用那一列进行合并，on的值为一个列表

2.1 一对一合并

#创建df1

df1 = DataFrame({'employee':['Bob','Jake','Lisa'],

                'group':['Accounting','Engineering',

		                'Engineering'],

                })

df1

#创建df2

df2 = DataFrame({'employee':['Lisa','Bob','Jake'],

                'hire_date':[2004,2008,2012],

                })

df2

#merge()会自动把df1和df2中的‘employee’合并

pd.merge(df1,df2)

2.2 多对一合并

df3 = DataFrame({

    'employee':['Lisa','Jake'],

    'group':['Accounting','Engineering'],

    'hire_date':[2004,2016]})

df3

df4 = DataFrame({'group':['Accounting','Engineering',

						'Engineering'],

                 'supervisor':['Carly','Guido','Steve']

                })

df4

pd.merge(df3,df4,how='outer')

2.3 多对多合并

df1 = DataFrame({'employee':['Bob','Jake','Lisa'],

                 'group':['Accounting','Engineering',

		                 'Engineering']})

df1

df2=DataFrame({'group':['Engineering','Engineering','HR'],

                'supervisor':['Carly','Guido','Steve']

                })

df2

pd.merge(df1,df2,how='outer')

2.4 加载Excel、CSV表格数据

加载excel数据:pd.read_excel(‘excel_path’,sheetname=1)

参数excel_path为Excel文件绝对路径，sheetname为第几个表格(下标从0开始)
加载csv数据:pd.csv(‘csv_path’)

df1=pd.read_excel('../data.xlsx',sheetname=1)

df1

2.5 key的规范化

使用on=显式指定哪一列为key,当有多个key相同时使用

df1 = DataFrame({'employee':['Jack',"Summer","Steve"],

                 'group':['Accounting','Finance',

		                 'Marketing']})

df1

df2 = DataFrame({'employee':['Jack','Bob',"Jake"],

                 'hire_date':[2003,2009,2012],

                'group':['Accounting','sell','ceo']})

df2

pd.merge(df1,df2,how='outer',on=['group','employee'])

当两张表没有可进行连接的列时，可使用left_on和right_on手动指定merge中左右两边的哪一列作为连接的列

df1 = DataFrame({'employee':['Bobs','Linda','Bill'],

                'group':['Accounting','Product',

		                'Marketing'],

               'hire_date':[1998,2017,2018]})

df1

df5 = DataFrame({'name':['Lisa','Bobs','Bill'],

                'hire_dates':[1998,2016,2007]})

df5

pd.merge(df1,df5,left_on='hire_date',right_on='hire_dates',

		how='outer')

2.6 内合并\外合并\左合并\右合并

how参数={‘inner’,‘outer’,‘left’,‘right’}

内合并：只保留两者都有的key（默认模式），how=‘inner’

df6 = DataFrame({'name':['Peter','Paul','Mary'],

               'food':['fish','beans','bread']}

               )

df6

df7 = DataFrame({'name':['Mary','Joseph'],

                'drink':['wine','beer']})

df7

pd.merge(df6,df7,how='inner')

外合并 how=‘outer’：补NaN

pd.merge(df6,df7,how='outer')

左合并：保留左表全部数据，how=‘left’

pd.merge(df6,df7,how='left')

右合并：保留右表全部数据，how=‘right’

pd.merge(df6,df7,how='right')

2.7 列冲突的解决

当列冲突时，即有多个列名称相同时，需要使用on=来指定哪一个列作为key，配合suffixes指定冲突列名。

可以使用suffixes=自己指定后缀。

df8 = DataFrame({'name':['Peter','Paul','Mary'],

                'rank':[1,2,3]})

df8

df9 = DataFrame({'name':['Peter','Paul','Mary'],

                'rank':[5,6,7]})

df9

#默认添加_x,_y

pd.merge(df8,df9,on='name')

#指定添加'_L','_R'

pd.merge(df8,df9,on = 'name',suffixes=['_L','_R'])

3、行索引合并

使用行索引作为合并条件，使用left_on指定左表的列索引，然后right_index=True:

dic1={

        'name':['tom','jay','helly'],

        'age':[11,12,33],

        'classRoom':[1,2,3]

    }

    df1=DataFrame(data=dic1)

    df2=DataFrame(data=np.random.randint(60,100,size=(3,3)),

                  index=['jay','tom','helly'],

                 columns=['java','python','c'])

    df1

df2

pd.merge(df1,df2,left_on='name',right_index=True)

pd.merge(df2,df1,right_on='name',left_index=True)

十、把列变成行索引

使用set_index(列名)：

df=DataFrame(data={

    '学科':['语文','数学','英语'],

    '分数':[100,90,98]

})

df

df.set_index('学科')

后记

【后记】为了让大家能够轻松学编程，我创建了一个公众号【轻松学编程】，里面有让你快速学会编程的文章，当然也有一些干货提高你的编程水平，也有一些编程项目适合做一些课程设计等课题。

也可加我微信【1257309054】，拉你进群，大家一起交流学习。
如果文章对您有帮助，请我喝杯咖啡吧！

公众号

关注我，我们一起成长~~

python重要的第三方库pandas模块常用函数解析之DataFrame的更多相关文章

pandas模块常用函数解析之Series（详解）
pandas模块常用函数解析之Series 关注公众号"轻松学编程"了解更多. 以下命令都是在浏览器中输入. cmd命令窗口输入:jupyter notebook 打开浏览器输入网 ...
numpy.random模块常用函数解析
numpy.random模块中常用函数解析 numpy.random模块官方文档 1. numpy.random.rand(d0, d1, ..., dn)Create an array of the ...
numpy模块常用函数解析
https://blog.csdn.net/lm_is_dc/article/details/81098805 numpy模块以下命令都是在浏览器中输入. cmd命令窗口输入:jupyter note ...
IOS学习：常用第三方库（GDataXMLNode：xml解析库）
IOS学习:常用第三方库(GDataXMLNode:xml解析库) 解析 XML 通常有两种方式,DOM 和 SAX: DOM解析XML时,读入整个XML文档并构建一个驻留内存的树结构(节点树),通过 ...
Hadoop streaming使用自定义python版本和第三方库
在使用Hadoop的过程中,遇到了自带python版本比较老的问题. 下面以python3.7为例,演示如何在hadoop上使用自定义的python版本以及第三方库. 1.在https://www.p ...
$python正则表达式系列（2）——re模块常用函数
本文主要介绍正则re模块的常用函数. 1. 编译正则 import re p = re.compile(r'ab*') print '[Output]' print type(p) print p p ...
(python pip安装第三方库超时问题（raise ReadTimeoutErrorself._pool, None, 'Read timed out.')
(python pip安装第三方库超时问题(raise ReadTimeoutErrorself._pool, None, ‘Read timed out.’)pip工具安装百度经验链接: pip安装 ...
Python中使用第三方库xlrd来写入Excel文件示例
Python中使用第三方库xlrd来写入Excel文件示例这一篇文章就来介绍下,如何来写Excel,写Excel我们需要使用第三方库xlwt,和xlrd一样,xlrd表示read xls,xlwt表 ...
numpy函数库中一些常用函数的记录
##numpy函数库中一些常用函数的记录最近才开始接触Python,python中为我们提供了大量的库,不太熟悉,因此在<机器学习实战>的学习中,对遇到的一些函数的用法进行记录. (1) ...

随机推荐

上部：问道 | R语言数据分析（北京邮电大学）自整理笔记
第1章气象万千数以等观数据分析:发现数据背后的规律等号的重要性,建立模型第2章所谓学习.归类而已 2.1所谓学习,归类而已(1) ps:机器学习只是归归类? 有监督学习--分类:无监督学习- ...
weblogic 安装+部署(一）
昨天刚接触weblogic,在windows下搭建了一个weblogic,没什么技术,留个笔记. 1.首先要有jdk,添加环境变量这个没什么好说的. 2.下载weblogic:可以去官网下:http: ...
万万没想到！ModelArts与AppCube组CP了
摘要:嘘,华为云内部都不知道的秘密玩法,我悄悄告诉您! 双"魔"合璧庆双节 ↑开局一张图,故事全靠编华为云的一站式开发平台ModelArts和应用魔方AppCube居然能玩到一起 ...
SQL Server查询优化指南
1.尽量不要使用is null,否则将导致引擎放弃使用索引而进行全表扫描.2.char是固定长度,速度快,但占空间,varchar不固定长度,不占空间,但速度慢.3.能使用数字类型就不要使用字符,查询 ...
c 判断端口是否已被使用
isPortOpen.c #include <stdio.h> #include <stdlib.h> #include <string.h> #include & ...
初探电波钟(A Brief Introduction Of Radio Controlled Clock AND Its Appliciations)
文档标识符:Radio_Controlled_Clock_T-D-P11 作者:DLHC 最后修改日期:2020.10.12 本文链接:https://www.cnblogs.com/DLHC-TEC ...
MeteoInfoLab脚本示例：计算温度平流
需要温度和风场U/V分量格点数据,计算中主要用到cdiff函数,结果用GrADS验证一致.脚本程序: print 'Open data files...' f_air = addfile('D:/Te ...
day26 Pyhton select功能语句实现
一.查询语句功能实现 select id,name where age > '20' name_value = {'id':0,'name':1,'age':2,'phone':3,'job': ...
rpm|yum安装的查看安装路径
[root@localhost src]# rpm -qa|grep grafanagrafana-7.1.0-1.x86_64[root@localhost src]# rpm -ql grafan ...
centos8:linux平台查看线程(ps/pstree/top)
一,ps/pstree/top命令所属的rpm包 pstree所属的包 [root@blog ~]# whereis pstree pstree: /usr/bin/pstree /usr/bin/p ...

python重要的第三方库pandas模块常用函数解析之DataFrame