pandas子集选取的三种方法:[]、.loc[]、.iloc[]
pandas读取Excel、csv文件中的数据时,得到的大多是表格型的二维数据,在pandas中对应的即为DataFrame
数据结构。在处理这类数据时,往往要根据据需求先获取数据中的子集,如某些列、某些行、行列交叉的部分等。可以说子集选取
是一个非常基础、频繁使用的操作,而DataFrame
的子集选取看似简单却有一定复杂性。本文聚焦DataFrame
的子集选取操作逻辑,力求在实战中遇到子集选取操作的需求时"不迷路"。
一、图解DataFrame
DataFrame
是一种二维的表格型数据结构,每一行/列都有对应的标签
和位置序号
。行列标签、位置序号的对应关系如下图所示:
列标签(也叫列名:columns) 行标签(也叫行索引:index)默认为(0, 1, 2, …, n)。这里与位置序号恰好一致。
针对DataFrame
的数据结构,pandas提供了三种获取子集的索引器:[]
、.loc[]
、.iloc[]
。
df[]
:快捷的整行整列选取df.loc[]
:按标签
的行列交叉选取df.iloc[]
:按位置序号
的行列交叉选取
二、整行整列选取:df[]
df['列标签']
,选取单个整列
# 选取“日期”列
df['日期']
df[标签列表]
,选取多个整列
# 选取“最高温”,“最低温”,“风力风向”三列
df[['最高温','最低温','风力风向']]
df[切片]
,选取整行
# 选取行索引值1、2、3的整行。切片左闭右开
df[1:4]
切片语法也支持字符串的索引标签值,如将"日期"列修改为行索引(index)
df1 = df.set_index("日期")
# 下面两个切片选取的行是一样的
df1[1:4] #按位置序号的切片,左闭右开
df1['2021-12-02 周四':'2021-12-04 周六'] # 按行标签的切片,左闭右闭
df[]
语法小结:
df[]
语法中,方括号内输入标签名
或列表
选取的是列;而方括号内输入切片
、条件
选取的是行(条件筛选在下文单独介绍)。df[]
输入切片选取整行时,如果是按照位置序号的切片,左闭右开;按行标签的切片,左闭右闭。
三、行列交叉选取
行列交叉选择,可以通过df.loc[]
和df.iloc[]
两个索引器来实现,两者都需要输入两组参数,先行选择,后列选择。行、列选择都可以是单个标签(序号)、列表和切片。根据需求组合使用,威力强大!
df.loc[行选择,列选择]
。参数面向的是标签
。
df.iloc[行位置序号,列位置序号]
。参数面向的是位置序号
。
行
:单个数值,列
:单个数值
df1.loc['2021-12-05 周日','空气质量指数']
df1.iloc[4,4]
行
:列表,列
:列表
df1.loc[['2021-12-05 周日','2021-12-07 周二'],['最高温','最低温','风力风向']]
df1.iloc[[4,6],[0,1,3]]
行
:切片,列
:切片
df1.loc['2021-12-01 周三':'2021-12-03 周五','天气':'空气质量指数']
df1.iloc[:3,2:5]
行
:切片(全选),列
:列表
df1.loc[:,['最高温','最低温']]
df1.iloc[:,[0,1]]
四、按条件筛选子集
df.[]
、df.loc[]
、df.iloc[]
除了按照行列的标签和位置序号选取子集,还可以使用条件(布尔表达式)筛选子集。
筛选最高温、最低温
将最高温、最低温处理成数值型:
df1.loc[:,'最高温'] = df1['最高温'].str.replace('°','').astype('float32')
df1.loc[:,'最低温'] = df1['最低温'].str.replace('°','').astype('float32')
获取最高温大于10度,最低温小于6度的数据
# df.[]的写法
df1[(df1['最高温']>10) & (df1['最低温']<6)]
# df.loc[]的写法
df1.loc[(df1['最高温']>10) & (df1['最低温']<6),:]
# &与、|或、~非
df1.loc[(df1['最高温']>10) & ~(df1['最低温']>=6),:]
五、函数筛选子集
# 匿名函数lambda表达式,获取最高温大于10度,最低温小于6度的数据
df1.loc[lambda df : (df['最高温']>10) & (df['最低温']<6)]
获取前9天并且空气质量指数为优
# 自定义函数,返回值是布尔数组
def queryData(df):
return df.index.str.startswith('2021-12-0') & df['空气质量指数'].str.endswith('优')
df1.loc[queryData , :]
小结
在pandast提供的df[]
、df.loc[]
、df.iloc[]
这个三种索引器,前两个更为常用。df[]
在整行或者整列获取时更为方便。整行整列选取可以看作是行列交叉选取的一个特例,故df.loc[]
是更为通用的方法,它支持单个标签值、列表多选、切片区间、条件(布尔)表达式、函数调用五种方式索引子集,功能强大。
pandas子集选取的三种方法:[]、.loc[]、.iloc[]的更多相关文章
- 三种方法实现PCA算法(Python)
主成分分析,即Principal Component Analysis(PCA),是多元统计中的重要内容,也广泛应用于机器学习和其它领域.它的主要作用是对高维数据进行降维.PCA把原先的n个特征用数目 ...
- Python使用三种方法实现PCA算法[转]
主成分分析(PCA) vs 多元判别式分析(MDA) PCA和MDA都是线性变换的方法,二者关系密切.在PCA中,我们寻找数据集中最大化方差的成分,在MDA中,我们对类间最大散布的方向更感兴趣. 一句 ...
- C#中??和?分别是什么意思? 在ASP.NET开发中一些单词的标准缩写 C#SESSION丢失问题的解决办法 在C#中INTERFACE与ABSTRACT CLASS的区别 SQL命令语句小技巧 JQUERY判断CHECKBOX是否选中三种方法 JS中!=、==、!==、===的用法和区别 在对象比较中,对象相等和对象一致分别指的是什么?
C#中??和?分别是什么意思? 在C#中??和?分别是什么意思? 1. 可空类型修饰符(?):引用类型可以使用空引用表示一个不存在的值,而值类型通常不能表示为空.例如:string str=null; ...
- opencv图像阈值设置的三种方法
1.简单阈值设置 像素值高于阈值时,给这个像素赋予一个新值(可能是白色),否则我们给它赋予另外一种颜色(也许是黑色).这个函数就是 cv2.threshhold().这个函数的第一个参数就是原图像 ...
- Pandas查询数据的几种方法
Pandas查询数据 Pandas查询数据的几种方法 df.loc方法,根据行.列的标签值查询 df.iloc方法,根据行.列的数字位置查询 df.where方法 df.query方法 .loc既能查 ...
- 像画笔一样慢慢画出Path的三种方法(补充第四种)
今天大家在群里大家非常热闹的讨论像画笔一样慢慢画出Path的这种效果该如何实现. 北京-LGL 博客号@ligl007发起了这个话题.然后各路高手踊跃发表意见.最后雷叔 上海-雷蒙 博客号@雷蒙之星 ...
- JAVA之线程同步的三种方法
最近接触到一个图片加载的项目,其中有声明到的线程池等资源需要在系统中线程共享,所以就去研究了一下线程同步的知识,总结了三种常用的线程同步的方法,特来与大家分享一下.这三种方法分别是:synchroni ...
- java解析xml的三种方法
java解析XML的三种方法 1.SAX事件解析 package com.wzh.sax; import org.xml.sax.Attributes; import org.xml.sax.SAXE ...
- 【Android】Eclipse自动编译NDK/JNI的三种方法
[Android]Eclipse自动编译NDK/JNI的三种方法 SkySeraph Sep. 18th 2014 Email:skyseraph00@163.com 更多精彩请直接访问SkySer ...
随机推荐
- ClassNotFoundException: javax.persistence.Converter
检查你的hibernate-jpa-2.0-api-1.0.0.final.jar,会发现javax.persitence包中没有Convert类. 解决办法:下载hibernate-jpa-2.1- ...
- Java 中的 ReadWriteLock 是什么?
读写锁是用来提升并发程序性能的锁分离技术的成果.
- String是最基本的数据类型吗?
基本数据类型包括byte.int.char.long.float.double.boolean和short.java.lang.String类是final类型的,因此不可以继承这个类.不能修改这个类. ...
- RocketMQ实现分布式事务
相关文章:http://www.uml.org.cn/zjjs/201810091.asp(深入理解分布式事务,高并发下分布式事务的解决方案) 三种分布式事务: 1.基于XA协议的两阶段提交 2.消息 ...
- mybatis的TypeHandler 的使用
今天看了别人的mybatis的教学视频,自己手写了一个简单的自定义的TypeHandler,有些细节记录一下. 1.定义自己的TypeHandler,代码如下: package com.example ...
- 【动态规划】洛谷P1802 5 倍经验日(01背包问题)
一个洛谷普及-的题目,也是我刚刚入门学习动态规划的练习题. 下面发一下我的思路和代码题解: 我的思路及伪代码: 我的AC图: 接下来上代码: 1 //动态规划 洛谷P1802 五倍经验日 2 #inc ...
- 如何解决Ubuntu下的“E: Unable to correct problems, you have held broken packages.”的问题. aptitude
今天安装build-essential时出现了以下问题,这属于包的依赖. 解决方案: 1,sudo apt-get install aptitude:完成aptitude命令安装 2,sudo apt ...
- can总线第二讲
一 CAN总线拓扑结构CAN是一种分布式的控制总线,总线上的每一个节点一般来说都比较简单,使用MCU控制器处理CAN总线数据,完成特定的功能:通过CAN总线将各节点连接只需较少的线缆(两根线:CAN_ ...
- 开关电源PCB排版,基本要点分析
1 开关电源PCB排版基本要点 1.1 电容高频滤波特性 图1是电容器基本结构和高频等效模型. 电容的基本公式是 式(1)显示,减小电容器极板之间的距离(d)和增加极板的截面积(A)将增加电容器的电容 ...
- React 和 ES6 工作流之 Webpack的使用(第六部分)
这是React和ECMAScript2015系列文章的最后一篇,我们将继续探索React 和 Webpack的使用. 下面是所有系列文章章节的链接: React . ES6 - 介绍(第一部分) Re ...