转自:https://www.jianshu.com/p/d6a9845a0a34

Pandas中loc,iloc,ix的使用

使用 iloc 从DataFrame中筛选数据

iloc 是基于“位置”的Dataframe的操作,即主要基于下标的操作

简单使用

Pandas中的 iloc 是用基于整数的下标来进行数据定位/选择
iloc 的语法是 data.iloc[<row selection>, <column selection>], iloc 在Pandas中是用来通过数字来选择数据中具体的某些行和列。你可以设想每一行都有一个对应的下标(0,1,2,...),通过 iloc 我们可以利用这些下标去选择相应的行数据。同理,对于行也一样,想象每一列也有对应的下标(0,1,2,...),通过这些下标也可以选择相应的列数据。

在iloc中一共有 2 个 “参数” -行选择器-列选择器,例如:

  1. # 使用DataFrame 和 iloc 进行单行/列的选择
  2. # 行选择:
  3. data.iloc[0] # 数据中的第一行
  4. data.iloc[1] # 数据中的第二行
  5. data.iloc[-1] # 数据中的最后一行
  6. # 列选择:
  7. data.iloc[:, 0] # 数据中的第一列
  8. data.iloc[:, 1] # 数据中的第二列
  9. data.iloc[:, -1] # 数据中的最后一列

行列混合选择

iloc 同样可以进行和列的混合选择,例如:

  1. # 使用 iloc 进行行列混合选择
  2. data.iloc[0:5] # 数据中的第 1-5 行
  3. data.iloc[:, 0:2] # 选择数据中的前2列和所有行
  4. data.iloc[[0, 3, 6, 24], [0, 5, 6]] # 选择第 1,4,7,25行 和 第 1,6,7 列
  5. data.iloc[0:5, 5:8] # 选择第1-6行 和 6-9列

使用 iloc 注意以下两点:

  • 如果使用iloc只选择了单独的一行会返回 Series 类型,而如果选择了多行数据则会返回 DataFrame 类型,如果你只选择了一行,但如果想要返回 DataFrame 类型可以传入一个单值list,具体例子看图:

     
    image
  • 当你使用 [1:5] 这种语法对数据进行切片的时候,要注意只选择了 1,2,3,44 个下标,而 5 并没有被包括进去,即使用[x:y]选择了下标从 xy-1 的数据

实际工作中,其实很少用到 iloc ,除非你想选择第一行( data.iloc[0] ) 或者 最后一行( data.iloc[-1] )

使用 loc 从DataFrame中筛选数据

可以在以下2中情况下使用 ioc

  • 使用 基于标签(列头)的下标的 查找
  • 使用 boolean / 有条件的 查找

使用 loc 的语法和 iloc 一样:data.loc[<row selection>, <column selection>]

使用基于标签(列头)的下标数据选择

使用 loc 进行数据选择是基于下标的(如果有的话),可以使用 df.set_index() 来设置下标, loc 方法直接通过下标来选择行。
例如将"last_name"这一列设置为下标:

  1. data.set_index("last_name", inplace=True)

效果如图:

 
image

现在我们已经将下标设置为"last_name",这样我们就可以根据"last_name"选择不同的数据了,使用 data.loc[<label>]

同样的可以查找单个值或者多个值,例子如图:

 
image

注意,第一个样例代码返回的是 Series 类型,而第二个样例代码返回的是 DataFrame 类型,同样你也可以通过传递一个单值list来返回一个 DataFrame 类型的数据

当然也可以使用 loc 对列进行选择,同时可以选择对列使用 " : "进行切片选择,效果如图:

 
image

同时,你还可以使用 " : " 对下标进行切片选择,例如 data.loc['Bruch':'Julio'] 会选择从下标为'Bruch'到下标为'Julio' 的所有行,例如:

  1. # 选择下标值为'Andrade' 和 'Veness',并且从'city'到'email'的所有列
  2. data.loc[['Andrade', 'Veness'], ['city':'email']]
  3. # 选择和之前相同的行,但只选择'first_name', 'address' 和 'city'这3列
  4. data.loc['Andrade':'Veness', ['first_name', 'address', 'city']]
  5. # 将下标切换为'id'
  6. data.set_index('id', inplace=True) # 在原有数据源上修改
  7. # 选择下标('id')= 487 的行
  8. data.loc[487]

注意:最后一行代码:data.loc[487] 不等价于 data.iloc[487], 前者是选择 'id' = 487 的行,而后者是选择第488行,DataFrame的索引可以是数字顺序的,也可以是字符串或多值的。

使用Boolean / 逻辑判断选择数据

使用 boolean 数组进行条件选择是较为常用的手段,使用boolean下标或者逻辑表达式,你可以传递给 loc 一个值为 True/False 的Series或者数组来选择那些 Series或者数组中值为 True 的行。

较多情况下,语句 data["first_name" == 'Antonio'] 会返回一个值为 True/False 的 Series 类型数据,其中 "True" 代表这一行中的 "first_name" 值为 "Antonio",这些 boolean数组可以直接如图所示传递给 loc 方法:

 
image

和之前一样,可以传递给 loc 第2个"参数"用来选择某些列,可以是列举的列名,也可以是用 " : " 切片的连续列,如图:

 
image

同样要注意:如果只选择了单独的一列,返回的是 Series 类型,同样传递一个单值list可以返回 DataFrame 类型,如图:

 
image

通过以下代码可以很好的理解 loc 的使用:

  1. # 选择 first_name 为Antonio,并且从 'city' 到 'email'的所有列
  2. data.loc[data['first_name'] == 'Antonio', 'city':'email']
  3. # 选择那些 email的值中是以 "hotmail.com" 结尾的行,同时选择所有列
  4. data.loc[data['email'].str.endswith("hotmail.com")]
  5. # 选择那些 "last_name" 等于某些值的行
  6. data.loc[data['first_name'].isin(['France', 'Tyisha', 'Eric'])]
  7. # 选择 first_name = 'Antonio' 并且 email 是以 "gmail.com"结尾的行
  8. data.loc[data['email'].str.endswith("gmail.com") & (data['first_name'] == 'Antonio')]
  9. # select rows with id column between 100 and 200, and just return 'postal' and 'web' columns
  10. # 选择那些 id 从100到200的行,并且只返回 'postal' 和 'web' 这两列
  11. data.loc[(data['id'] > 100) & (data['id'] <= 200), ['postal', 'web']]
  12. # lambda函数产生的 True/False 同样可以使用到 loc 中
  13. # 选择那些公司名为4个单词的行
  14. data.loc[data['company_name'].apply(lambda x: len(x.split(' ')) == 4)]
  15. # 为了代码更加清晰, 选择也可以在 .loc 之外进行
  16. # 在 .loc 之外单独生成一个变量
  17. idx = data['company_name'].apply(lambda x: len(x.split(' ')) == 4)
  18. # 只选择 idx 值为True的那些行,并且只选择'email', 'first_name', 'company'这3列
  19. data.loc[idx, ['email', 'first_name', 'company']]

顺便说一下Pandas中 map(), apply()applymap()的区别

  • map() 是 Series 中的函数,DataFrame 中是没有 map() 的,map() 将函数应用于Series中的每一个元素

  • apply()applymap() 是 DataFrame 中的函数,而在Series中是没有的。他们的区别在于: apply() 将函数作用于DataFrame中的 每一个行或者列,而 applymap() 会将函数作用于DataFrame中的 每一个元素

使用 loc 修改 DataFrame 中的数据

你可以像使用 loc 查询数据那样对数据进行修改,这个操作不会返回新的数据对象而是直接在原数据上进行修改。通过这个操作,你可以根据不同的情况对数据进行修改:

  1. # 修改 'id' > 2000 的数据中的 'first_name' 为 "John"
  2. data.loc[data['id'] > 2000, "first_name"] = "John"

使用 ix 进行选择

现在pandas官方已经不推荐使用 ix 进行选择了,并且将会在 0.20.1版本从Pandas中丢弃

作者:danielAck
链接:https://www.jianshu.com/p/d6a9845a0a34
来源:简书
简书著作权归作者所有,任何形式的转载都请联系作者获得授权并注明出处。

pandas中loc-iloc-ix的使用的更多相关文章

  1. Pandas:loc iloc ix用法

    参考:Pandas中关于 loc \ iloc \ ix 用法的理解 相同点 使用形式都是 df.xxx[ para1 , para2 ] #xxx表示loc iloc ix#df表示一个DataFr ...

  2. python pandas 中 loc & iloc 用法区别

    转自:https://blog.csdn.net/qq_21840201/article/details/80725433 ### 随机生DataFrame 类型数据import pandas as ...

  3. Pandas的 loc iloc ix 区别

    先看代码: In [46]: import pandas as pd In [47]: data = [[1,2,3],[4,5,6]] In [48]: index = [0,1] In [49]: ...

  4. pandas 定位 loc,iloc,ix

    In [114]: df Out[114]: A B C D 2018-06-30 0.318501 0.613145 0.485612 0.918663 2018-07-31 0.614796 0. ...

  5. pandas的loc, iloc, ix的操作

    参考: https://blog.csdn.net/xw_classmate/article/details/51333646 1. loc——通过行标签索引行数据 2. iloc——通过行号获取行数 ...

  6. Pandas之loc\iloc\ix

    ---------------------------------------------------------------------------------------------------- ...

  7. pandas中DataFrame的ix,loc,iloc索引方式的异同

    pandas中DataFrame的ix,loc,iloc索引方式的异同 1.loc: 按照标签索引,范围包括start和end 2.iloc: 在位置上进行索引,不包括end 3.ix: 先在inde ...

  8. [译]pandas中的iloc loc的区别?

    loc 从特定的 gets rows (or columns) with particular labels from the index. iloc gets rows (or columns) a ...

  9. Pandas中Loc用法总结

    摘自:http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.loc.html 具体用法,假设数据源为: > ...

  10. pandas中Loc vs. iloc vs. ix vs. at vs. iat?

    loc: only work on indexiloc: work on positionix: You can get data from dataframe without it being in ...

随机推荐

  1. HDU1241 Oil Deposits —— DFS求连通块

    题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=1241 Oil Deposits Time Limit: 2000/1000 MS (Java/Othe ...

  2. html5--6-28 css盒模型4

    html5--6-28 css盒模型4 实例 学习要点 了解盒模型 元素内容.内边距.边框 和 外边距 了解盒模型的概念: CSS 盒模型规定了处理元素内容.内边距.边框 和 外边距 的方式. 最内部 ...

  3. (转)Linux下 SVN客户端安装

    原地址:http://rtxbc.iteye.com/blog/860092 今天有现场程序连svn服务器一直有异常,于是在现场linux下安装svn client来直接测试,看问题原因: 一:安装s ...

  4. hadoop部署之防火墙

    在部署hadoop时,好多资料上都写了要关闭防火墙,如果不关闭可能出现节点间无法通信的情况,于是大家也都这样做了,因此集群通信正常.当然集群一般是处于局域网中的,因此关闭防火墙一般也不会存在安全隐患, ...

  5. UVA-10391(字符串检索)

    题意: 给定一个字典,要求找出所有的复合词; 思路: 用map把词都存起来,再把词拆开看是否是出现过的单词; AC代码: #include <bits/stdc++.h> #include ...

  6. ES6之Object

    对象属性模型的相关方法: 对象自身所有属性名称 Object.getOwnPropertyNames(obj)              //[] 获取某个属性的attribute对象 Object. ...

  7. margin---bug

    常见的浏览器下margin出现的bug IE6中双边距Bug:发生场合:当给父元素内第一个浮动元素设置margin-left(元素float:left)或margin-right(元素float:ri ...

  8. javascript ==等于与===恒等于

    ==判断是否等于,只判断数值 ===代表恒等于,不仅判断数值,而且判断类型 var a=5; var b="5"; (a b 只是数值上相等,但是类型并不相等) a==b //tr ...

  9. qq截图原理

    屏幕截图实现的大体思想是:发起截图时,将当前窗口的图像保存到内存中,然后弹出一个置顶的全屏窗口,将保存的桌面图片绘制到这个全屏窗口上:初始时绘制的是灰化的桌面图像,选择截图区域后,则将选中的区域绘制成 ...

  10. 一些好用的Linux命令组合

    1.删除0字节文件 代码如下: find -type f -size 0 -exec rm -rf {} \; 2.查看进程按内存从大到小排列 代码如下: ps -e -o "%C : %p ...