使用pandas,首先需要熟悉它的2个主要的数据结构:Series和DataFrame。

Series

series是一种类似于一维数组的的对象,它由一组数据(各种Numpy数据类型)以及一组与之相关的数据标签(索引)组成。

In [1]: from pandas import Series,DataFrame

In [2]: import pandas as pd

In [3]: obj=Series([4,7,-5,3])

In [4]: obj
Out[4]:
0 4
1 7
2 -5
3 3
dtype: int64

Series的字符串表现形式为:索引在左边,值在右边。由于没有为数据设定索引,会自动创建一个从0到N-1(N为数据的长度)的整数型索引。可以通过series的values和index属性获取其数组的表现形式和索引对象。

In [5]: obj.values
Out[5]: array([ 4, 7, -5, 3], dtype=int64) In [6]: obj.index
Out[6]: RangeIndex(start=0, stop=4, step=1)

另外,还可以创建一个series带有一个对各个数据点进行标记的索引:

In [7]: obj2=Series([4,7,-5,3],index=['b','c','d','a'])

In [8]: obj2
Out[8]:
b 4
c 7
d -5
a 3
dtype: int64 In [9]: obj2.index
Out[9]: Index(['b', 'c', 'd', 'a'], dtype='object')

与普通的numpy数组相比,你可以通过索引的方式选区series的单个或一组值:

In [10]: obj2['a']
Out[10]: 3 In [11]: obj2['d']
Out[11]: -5 In [12]: obj2['d']=6 In [13]: obj2['d']
Out[13]: 6 In [14]: obj2[['c','a','d']]
Out[14]:
c 7
a 3
d 6
dtype: int64

注意:选取一组值的时候,obj2[['c','a','d']]是由2个[]组成。

numpy数组的数组运算都会保留索引与值之间的链接:

In [15]: obj2
Out[15]:
b 4
c 7
d 6
a 3
dtype: int64 In [16]: obj2[obj2>0]
Out[16]:
b 4
c 7
d 6
a 3
dtype: int64 In [17]: obj2[obj2-5>0]
Out[17]:
c 7
d 6
dtype: int64 In [18]: obj2*2
Out[18]:
b 8
c 14
d 12
a 6
dtype: int64

还可以将series看成一个定长的有序字典,因为它是索引值到数据值的一个映射。它可以用到许多需要字典参数的函数中:

In [23]: 'a'   in obj2
Out[23]: True In [24]: 'e' in obj2
Out[24]: False

注意:只能用索引,不能用数据值

In [26]: obj2
Out[26]:
b 4
c 7
d 6
a 3
dtype: int64 In [27]: 3 in obj2
Out[27]: False

如果数据被存放在一个python字典中,也可以直接通过这个字典来创建series:

In [28]: sdata={'ohio':35000,'Texha':71000,'Oraige':16000,'Utah':5000}

In [29]: obj3=Series(sdata)

In [30]: obj3
Out[30]:
ohio 35000
Texha 71000
Oraige 16000
Utah 5000
dtype: int64

如果只传入一个字典,则结果中series中的索引就是原字典的键(有序排列)

In [31]: states=['California','ohio','Utah','Oraige']

In [32]: obj4=Series(sdata,index=states)

In [33]: obj4
Out[33]:
California NaN
ohio 35000.0
Utah 5000.0
Oraige 16000.0
dtype: float64

上面中,sdata中跟states索引相匹配的那3个值会被找出来并放到相应的位置上。未找到的就用NaN表示。

pandas中的isnull和notnull可用于检测缺失数据

In [34]: pd.isnull(obj4)
Out[34]:
California True
ohio False
Utah False
Oraige False
dtype: bool In [35]: pd.notnull(obj4)
Out[35]:
California False
ohio True
Utah True
Oraige True
dtype: bool

series中也有类似方法:

In [37]: obj4.isnull()
Out[37]:
California True
ohio False
Utah False
Oraige False
dtype: bool In [38]: obj4.notnull()
Out[38]:
California False
ohio True
Utah True
Oraige True
dtype: bool

对于很多应用而言,Series最重要的一个功能就是:它在算术运算中会自动对其不同索引的数据。

In [39]: obj3
Out[39]:
ohio 35000
Texha 71000
Oraige 16000
Utah 5000
dtype: int64 In [40]: obj4
Out[40]:
California NaN
ohio 35000.0
Utah 5000.0
Oraige 16000.0
dtype: float64 In [41]: obj3+obj4
Out[41]:
California NaN
Oraige 32000.0
Texha NaN
Utah 10000.0
ohio 70000.0
dtype: float64

Series对象本身及其索引都有一个name属性,该属性跟pandas其他关键功能关系非常密切:

In [42]: obj4.name

In [43]: obj4.name='population'

In [44]: obj4
Out[44]:
California NaN
ohio 35000.0
Utah 5000.0
Oraige 16000.0
Name: population, dtype: float64 In [45]: obj4.index.name='state' In [46]: obj4
Out[46]:
state
California NaN
ohio 35000.0
Utah 5000.0
Oraige 16000.0
Name: population, dtype: float64

Series的索引可以通过赋值的方式就地修改:

In [47]: obj
Out[47]:
0 4
1 7
2 -5
3 3
dtype: int64 In [48]: obj.index=['Bob','Steve','Jeff','Ryan'] In [49]: obj
Out[49]:
Bob 4
Steve 7
Jeff -5
Ryan 3
dtype: int64

DataFrame

DataFrame是一个表格型的数据结构。它含有一组有序的列,每列可以是不同的值类型/(数值丶字符串丶布尔值等)。DataFrame既有行索引也有列索引,它可以被看做由Series组成的字典(共同一个索引)。跟其他类似的数据结构相比,DataFrame中面向行和面向列的操作基本上是平衡的。其实,DataFrame中的数据是以一个或多个二维块存放的(而不是列表/字典或别的一维数据结构)。

构建DataFrame的办法很多,最典型的就是由一个等长列表或Numpy数组组成的字符串:

In [52]: data={'state':['onio','onio','linux','hp-ux','red-hat'],
...: 'year':[2000,2001,2002,2001,2002],
...: 'pop':[1.5,1.7,3.6,2.4,2.9]} In [53]: frame=DataFrame(data) In [54]: frame
Out[54]:
state year pop
0 onio 2000 1.5
1 onio 2001 1.7
2 linux 2002 3.6
3 hp-ux 2001 2.4
4 red-hat 2002 2.9

结果DataFrame会自动加上索引(和Series一样),且全部列会被有序排列

如果指定了列序列,则DataFrame就会按照指定顺序进行排列:

In [55]: DataFrame(data,columns=['year','state','pop'])
Out[55]:
year state pop
0 2000 onio 1.5
1 2001 onio 1.7
2 2002 linux 3.6
3 2001 hp-ux 2.4
4 2002 red-hat 2.9

跟series一样如果传入在的列在数据中找不到,就会产生NA值:

In [60]: frame2=DataFrame(data,columns=['year','state','pop','debt'],index=['one','two','three','four','five'])

In [61]: frame2
Out[61]:
year state pop debt
one 2000 onio 1.5 NaN
two 2001 onio 1.7 NaN
three 2002 linux 3.6 NaN
four 2001 hp-ux 2.4 NaN
five 2002 red-hat 2.9 NaN
In [62]: frame2.columns
Out[62]: Index(['year', 'state', 'pop', 'debt'], dtype='object')

通过类似字典标记的方式或属性的方式,可以将DataFrame的列获取为一个Series:

In [63]: frame2['state']
Out[63]:
one onio
two onio
three linux
four hp-ux
five red-hat
Name: state, dtype: object

列可以通过赋值的方式进行修改,比如可以空的'debt'列赋值:

In [73]: frame2
Out[73]:
year state pop debt
one 2000 onio 1.5 NaN
two 2001 onio 1.7 NaN
three 2002 linux 3.6 NaN
four 2001 hp-ux 2.4 NaN
five 2002 red-hat 2.9 NaN In [74]: frame2['debt']=16.5 In [75]: frame2
Out[75]:
year state pop debt
one 2000 onio 1.5 16.5
two 2001 onio 1.7 16.5
three 2002 linux 3.6 16.5
four 2001 hp-ux 2.4 16.5
five 2002 red-hat 2.9 16.5

将列表或者数组赋值给某个列时,其长度必须跟DataFrame的长度向匹配。如果赋值的是一个Series,就会精确匹配DataFrame的索引,所有的空位都将会填上缺失值:

In [76]: val=Series([-1.2,-1.3,-1.4],index=['two','four','five'])

In [77]: frame2['debt']=val

In [78]: frame2
Out[78]:
year state pop debt
one 2000 onio 1.5 NaN
two 2001 onio 1.7 -1.2
three 2002 linux 3.6 NaN
four 2001 hp-ux 2.4 -1.3
five 2002 red-hat 2.9 -1.4

为不存在的列赋值,会创建出一个新列,关键字del可以删除列:

In [79]: frame2['estarn']=frame2['state']=='onio'

In [80]: frame2
Out[80]:
year state pop debt estarn
one 2000 onio 1.5 NaN True
two 2001 onio 1.7 -1.2 True
three 2002 linux 3.6 NaN False
four 2001 hp-ux 2.4 -1.3 False
five 2002 red-hat 2.9 -1.4 False In [81]: del frame2['estarn'] In [82]: frame2
Out[82]:
year state pop debt
one 2000 onio 1.5 NaN
two 2001 onio 1.7 -1.2
three 2002 linux 3.6 NaN
four 2001 hp-ux 2.4 -1.3
five 2002 red-hat 2.9 -1.4

另一种常见的数据形式那就是嵌套字典(也就是字典的字典)

In [85]: pop={'Nevda':{2001:2.4,2002:2.9},'Ohio':{2000:1.5,2001:1.7,2002:3.6}}

In [87]: frame3=DataFrame(pop)

In [88]: frame3
Out[88]:
Nevda Ohio
2000 NaN 1.5
2001 2.4 1.7
2002 2.9 3.6

它被解释为:外层字典的键作为列,内层键作为行索引.

当然也可以对结果进行转置:

In [89]: frame3.T
Out[89]:
2000 2001 2002
Nevda NaN 2.4 2.9
Ohio 1.5 1.7 3.6

pandas入门学习--------------------------(一)的更多相关文章

  1. pandas入门学习

    索引对象 pandas的索引对象负责管理轴标签和其他元数据(比如轴名称等).构建series或DataFrame时,所用到的任何数组或其他序列的标签都会转换成一个index: In [1]: impo ...

  2. pandas库学习笔记(二)DataFrame入门学习

    Pandas基本介绍——DataFrame入门学习 前篇文章中,小生初步介绍pandas库中的Series结构的创建与运算,今天小生继续“死磕自己”为大家介绍pandas库的另一种最为常见的数据结构D ...

  3. Python 数据处理库 pandas 入门教程

    Python 数据处理库 pandas 入门教程2018/04/17 · 工具与框架 · Pandas, Python 原文出处: 强波的技术博客 pandas是一个Python语言的软件包,在我们使 ...

  4. 利用python进行数据分析之pandas入门

    转自https://zhuanlan.zhihu.com/p/26100976 目录: 5.1 pandas 的数据结构介绍5.1.1 Series5.1.2 DataFrame5.1.3索引对象5. ...

  5. vue入门学习(基础篇)

    vue入门学习总结: vue的一个组件包括三部分:template.style.script. vue的数据在data中定义使用. 数据渲染指令:v-text.v-html.{{}}. 隐藏未编译的标 ...

  6. Hadoop入门学习笔记---part4

    紧接着<Hadoop入门学习笔记---part3>中的继续了解如何用java在程序中操作HDFS. 众所周知,对文件的操作无非是创建,查看,下载,删除.下面我们就开始应用java程序进行操 ...

  7. Hadoop入门学习笔记---part3

    2015年元旦,好好学习,天天向上.良好的开端是成功的一半,任何学习都不能中断,只有坚持才会出结果.继续学习Hadoop.冰冻三尺,非一日之寒! 经过Hadoop的伪分布集群环境的搭建,基本对Hado ...

  8. PyQt4入门学习笔记(三)

    # PyQt4入门学习笔记(三) PyQt4内的布局 布局方式是我们控制我们的GUI页面内各个控件的排放位置的.我们可以通过两种基本方式来控制: 1.绝对位置 2.layout类 绝对位置 这种方式要 ...

  9. PyQt4入门学习笔记(一)

    PyQt4入门学习笔记(一) 一直没有找到什么好的pyqt4的教程,偶然在google上搜到一篇不错的入门文档,翻译过来,留以后再复习. 原始链接如下: http://zetcode.com/gui/ ...

随机推荐

  1. SAPUI5实例一:来创建Web应用UI

    试试SAPUI5.这是SAP比较重要的一个UI库.完全通过HTML5实现,可以作为Web和移动应用的UI开发. 现在已经开源了.在这里可以下载: http://sap.github.io/openui ...

  2. PHP 获取中英文混合字符串长度

    通常情况下要想掌握一个字符串变量的长度[一般掌握其字数],自然想到 strlen |--   $str = 'string'; echo strlen($str); //6 .csharpcode, ...

  3. laravel 中禁用掉注册功能

    想让 laravel 做单用户登录,禁止掉注册功能 在 RegisterController 添加以下方法 public function showRegistrationForm() { retur ...

  4. Android学习笔记之Android Studio下创建menu布局文件

    1.创建menu文件夹 Android Studio项目中如果没有menu文件夹,在res文件夹右键,new-Android resource directory: 则会弹出下图对话框,在Resour ...

  5. .NET 中 GetProcess 相关方法的性能

    .NET 的 Process 类中提供了查找进程的若干方法,其中部分方法还比较消耗性能.如果你试图优化查找进程相关方法的性能,可能本文分享的一些耗时数据可以作为参考.   性能比较 Process 类 ...

  6. SSZipArchive使用详解

    下载SSZipArchive,点击我.或者自己在这里下载. SSZipArchive功能: 解压zip文件 解压密码保护的zip文件 创建zip文件 追加到zip文件 压缩文件 使用一个名字来压缩NS ...

  7. 强大的Core Image(教你做自己的美图秀秀))

    iOS5新特性:强大的Core Image(教你做自己的美图秀秀))       iOS5给我们带来了很多很好很强大的功能和API.Core Image就是其中之一,它使我们很容易就能处理图片的各种效 ...

  8. ballerina 学习五 使用composer管理ballerina 项目

    1. 启动 composer 备注: 因为这个命名和php的一个包管理工具重名了,所以可能需要使用决定路径 比如我的mac系统使用:Library/Ballerina/ballerina-0.970. ...

  9. 解压RPM包

    有时我们需要RPM包中的某个文件,如何解压RPM包呢? RPM包是使用cpio格式打包的,因此可以先转成cpio然后解压,如下所示: rpm2cpio xxx.rpm | cpio -div 例如: ...

  10. bzoj 4552 [Tjoi2016&Heoi2016]排序——二分答案

    题目:https://www.lydsy.com/JudgeOnline/problem.php?id=4552 二分答案,把 >= mid 的设成1.< mid 的设成0,之后排序就变成 ...