Pandas学习笔记系列：

原文：https://morvanzhou.github.io/tutorials/data-manipulation/np-pd/3-2-pd-indexing/ 有删改

下面例子是以 6X4 的矩阵数据为基础进行介绍

dates = pd.date_range('20130101', periods=6)

df = pd.DataFrame(np.arange(24).reshape((6,4)),index=dates, columns=['A','B','C','D'])

"""

             A   B   C   D

2013-01-01   0   1   2   3

2013-01-02   4   5   6   7

2013-01-03   8   9  10  11

2013-01-04  12  13  14  15

2013-01-05  16  17  18  19

2013-01-06  20  21  22  23

"""

简单的筛选

使用下标和标签索引

如果我们想选取DataFrame中的数据，下面描述了两种途径, 他们都能达到同一个目的：

print(df['A'])

print(df.A)

"""

2013-01-01     0

2013-01-02     4

2013-01-03     8

2013-01-04    12

2013-01-05    16

2013-01-06    20

Freq: D, Name: A, dtype: int64

"""

让选择跨越多行或多列:

print(df[0:3])

"""

            A  B   C   D

2013-01-01  0  1   2   3

2013-01-02  4  5   6   7

2013-01-03  8  9  10  11

"""

print(df['20130102':'20130104'])

"""

A   B   C   D

2013-01-02   4   5   6   7

2013-01-03   8   9  10  11

2013-01-04  12  13  14  15

"""

如果df[3:3]将会是一个空对象。后者选择2013-01-02到2013-01-04标签之间的数据，并且包括这两个标签。

另外在实验中我尝试过df['2013-01-04']和df['20130104']都会报错，报错信息是没有这两个key。所以我进一步做如下实验：

df2 = pd.DataFrame([[0,1],[2,3]],index=['a','b'], columns=['b','a'])

print(df2)

"""

   b  a

a  0  1

b  2  3

"""

实验1

print(df2.a)

"""

a    1

b    3

Name: a, dtype: int64

"""

print(df2['b'])

"""

a    0

b    2

Name: b, dtype: int64

"""

可以看到这种方式是获取列元素。

实验2

print(df2['a':])

"""

   b  a

a  0  1

b  2  3

"""

print(df2['b':])

"""

   b  a

b  2  3

"""

可以看到使用:的这种方式可以获取行元素。

当然这种使用标签名来指定范围的方法明显很麻烦，另外有个很明显的缺点就是如果有两个标签是相同的时候，你就没法用标签来指定起始范围了。所以我们还可以用数字来指定范围，例如在该例子中df[1:]是等价于df['b':]的。

另外这两种方式也存在一些区别，就是最后的一个元素，如果使用的是数字，则不会选择到，反之如果用标签则会选择，看例子更好明白：

实验3

print(df2['a':'b'])

"""

   b  a

a  0  1

b  2  3

"""

print(df2[0:1])

"""

   b  a

a  0  1

"""

看了上面介绍的方法你可能有点晕头转向，所以也不推荐上面的索引方法。你可以参考如下几种方法来对数据进行筛选。

根据标签 `loc`

我们可以使用标签来选择数据 loc, 也就是说这种情况下你不能再使用数字进行索引了。本例子主要通过标签名字选择某一行数据，或者通过选择某行或者所有行（:代表所有行）然后选其中某一列或几列数据。:

print(df.loc['20130102'])

"""

A    4

B    5

C    6

D    7

Name: 2013-01-02 00:00:00, dtype: int64

"""

print(df.loc[:,['A','B']])

"""

             A   B

2013-01-01   0   1

2013-01-02   4   5

2013-01-03   8   9

2013-01-04  12  13

2013-01-05  16  17

2013-01-06  20  21

"""

print(df.loc['20130102',['A','B']])

"""

A    4

B    5

Name: 2013-01-02 00:00:00, dtype: int64

"""

根据序列 `iloc`

另外我们可以采用位置进行选择 :iloc, 在这里我们可以通过位置选择在不同情况下所需要的数据例如选某一个，连续选或者跨行选等操作。

print(df.iloc[3,1])

# 13

print(df.iloc[3:5,1:3])

"""

             B   C

2013-01-04  13  14

2013-01-05  17  18

"""

print(df.iloc[[1,3,5],1:3])

"""

             B   C

2013-01-02   5   6

2013-01-04  13  14

2013-01-06  21  22

"""

在这里我们可以通过位置选择在不同情况下所需要的数据, 例如选某一个，连续选或者跨行选等操作。

`ix`：结合`loc`和`iloc`

当然我们可以采用混合选择 ix, 其中选择’A’和’C’的两列，并选择前三行的数据。

print(df.ix[:3,['A','C']])

"""

            A   C

2013-01-01  0   2

2013-01-02  4   6

2013-01-03  8  10

"""

通过判断的筛选

最后我们可以采用判断指令 (Boolean indexing) 进行选择. 我们可以约束某项条件然后选择出当前所有数据.

print(df[df.A>8])

"""

             A   B   C   D

2013-01-04  12  13  14  15

2013-01-05  16  17  18  19

2013-01-06  20  21  22  23

"""

【转】Pandas学习笔记（二）选择数据的更多相关文章

MYSQL初级学习笔记二：数据表相关操作及MySQL存储引擎！（视频序号：初级_5,7-22|6)
知识点三:数据表相关操作(5,7-22) --------------------------------整型--------------------------------- --测试整型 CREA ...
openresty 学习笔记二:获取请求数据
openresty 学习笔记二:获取请求数据 openresty 获取POST或者GET的请求参数.这个是要用openresty 做接口必须要做的事情.这里分几种类型:GET,POST(urlenco ...
【转】Pandas学习笔记（七）plot画图
Pandas学习笔记系列: Pandas学习笔记(一)基本介绍 Pandas学习笔记(二)选择数据 Pandas学习笔记(三)修改&添加值 Pandas学习笔记(四)处理丢失值 Pandas学 ...
【转】Pandas学习笔记（六）合并 merge
Pandas学习笔记系列: Pandas学习笔记(一)基本介绍 Pandas学习笔记(二)选择数据 Pandas学习笔记(三)修改&添加值 Pandas学习笔记(四)处理丢失值 Pandas学 ...
【转】Pandas学习笔记（五）合并 concat
Pandas学习笔记系列: Pandas学习笔记(一)基本介绍 Pandas学习笔记(二)选择数据 Pandas学习笔记(三)修改&添加值 Pandas学习笔记(四)处理丢失值 Pandas学 ...
【转】Pandas学习笔记（四）处理丢失值
Pandas学习笔记系列: Pandas学习笔记(一)基本介绍 Pandas学习笔记(二)选择数据 Pandas学习笔记(三)修改&添加值 Pandas学习笔记(四)处理丢失值 Pandas学 ...
【转】Pandas学习笔记（三）修改&添加值
Pandas学习笔记系列: Pandas学习笔记(一)基本介绍 Pandas学习笔记(二)选择数据 Pandas学习笔记(三)修改&添加值 Pandas学习笔记(四)处理丢失值 Pandas学 ...
【转】Pandas学习笔记（一）基本介绍
Pandas学习笔记系列: Pandas学习笔记(一)基本介绍 Pandas学习笔记(二)选择数据 Pandas学习笔记(三)修改&添加值 Pandas学习笔记(四)处理丢失值 Pandas学 ...
[Firefly引擎][学习笔记二][已完结]卡牌游戏开发模型的设计
源地址:http://bbs.9miao.com/thread-44603-1-1.html 在此补充一下Socket的验证机制:socket登陆验证.会采用session会话超时的机制做心跳接口验证 ...

随机推荐

知识点总结 REACT
1.react中如何创建一个组件 ES6:class 组件名 extends Component{} ES5:var App=React.createClass({}) 2.render函数什么时候会 ...
CSP2019许愿贴
CSP2019RP++
DP问题(2) : hdu 1421
题目转自hdu 1421,题目传送门题目大意: 给你n个物品,你要搬走2*k个(也就是搬k次) 每次搬需要花费v,v=(ai-aj)2 (i表示左手拿的物品重量,j表示右手拿的物品的重量) 要求所有 ...
团队作业第五次—项目冲刺-Day7
Day7 part1-SCRUM: 项目相关作业相关具体描述所属班级 2019秋福大软件工程实践Z班作业要求团队作业第五次-项目冲刺作业正文 hunter--冲刺集合团队名称 hunte ...
Visual Studio 调试系列9 调试器提示和技巧
系列目录 [已更新最新开发文章,点击查看详细] 01 固定数据提示如果你在调试时,经常将鼠标悬停在数据提示上,就可能想固定变量的数据提示,方便自己随时查看. 即使在重新启动后,固定的变量也能 ...
IDCode校验算法
运行地址: https://c.runoob.com/compile/10 算法源码 public class HelloWorld { public static void main(String ...
Gitlab安装、备份与恢复
背景:由于需要把gitlab从A服务器转移到B服务器,故在B服务器进行gitlab的安装和恢复备份步骤: 一.在B服务器安装Gitlab 1. 获取安装包 wget https://mirrors. ...
ucore实验Lab1知识点总结
Intel 80386 ucore目前支持的硬件环境是基于Intel 80386以上的计算机系统. Intel 80386是80x86系列中的第一种32位微处理器.80386的内部和外部数据总线都是3 ...
初次用R的实际案例数据分析
这是一次教授布置的期末作业,也是书籍<商务数据分析与应用>的一个课后作业目录数据描述数据预处理描述性统计分析模型分析(方差分析) 数据描述非学位职业培训机构的178个学员的数据 ...
[NOI2019] 弹跳
题意: 给你平面上的$n$个点,共有$m$个弹跳装置. 每个弹跳装置可以从点$p_{i}$以$t_{i}$的代价跳到矩形$(L_{i},D_{i}),(R_{i},U_{i})$中的任何一个点. 现在 ...

【转】Pandas学习笔记（二）选择数据

简单的筛选

使用下标和标签索引

根据标签 loc

根据序列 iloc