pandas 是基于 Numpy 构建的含有更高级数据结构和工具的数据分析包

类似于 Numpy 的核心是 ndarray,pandas 也是围绕着 Series 和 DataFrame 两个核心数据结构展开的 。Series 和 DataFrame 分别对应于一维的序列和二维的表结构。pandas 约定俗成的导入方法如下:

  1. from pandas import Series,DataFrame
  2. import pandas as pd

Series


Series 可以看做一个定长的有序字典。基本任意的一维数据都可以用来构造 Series 对象:

  1. >>> s = Series([1,2,3.0,'abc'])
  2. >>> s
  3. 0 1
  4. 1 2
  5. 2 3
  6. 3 abc
  7. dtype: object

虽然 dtype:object 可以包含多种基本数据类型,但总感觉会影响性能的样子,最好还是保持单纯的 dtype。

Series 对象包含两个主要的属性:index 和 values,分别为上例中左右两列。因为传给构造器的是一个列表,所以 index 的值是从 0 起递增的整数,如果传入的是一个类字典的键值对结构,就会生成 index-value 对应的 Series;或者在初始化的时候以关键字参数显式指定一个 index 对象:

  1. >>> s = Series(data=[1,3,5,7],index = ['a','b','x','y'])
  2. >>> s
  3. a 1
  4. b 3
  5. x 5
  6. y 7
  7. dtype: int64
  8. >>> s.index
  9. Index(['a', 'b', 'x', 'y'], dtype='object')
  10. >>> s.values
  11. array([1, 3, 5, 7], dtype=int64)

Series 对象的元素会严格依照给出的 index 构建,这意味着:如果 data 参数是有键值对的,那么只有 index 中含有的键会被使用;以及如果 data 中缺少响应的键,即使给出 NaN 值,这个键也会被添加。

注意 Series 的 index 和 values 的元素之间虽然存在对应关系,但这与字典的映射不同。index 和 values 实际仍为互相独立的 ndarray 数组,因此 Series 对象的性能完全 ok。

Series 这种使用键值对的数据结构最大的好处在于,Series 间进行算术运算时,index 会自动对齐。

另外,Series 对象和它的 index 都含有一个 name 属性:

  1. >>> s.name = 'a_series'
  2. >>> s.index.name = 'the_index'
  3. >>> s
  4. the_index
  5. a 1
  6. b 3
  7. x 5
  8. y 7
  9. Name: a_series, dtype: int64

DataFrame


DataFrame 是一个表格型的数据结构,它含有一组有序的列(类似于 index),每列可以是不同的值类型(不像 ndarray 只能有一个 dtype)。基本上可以把 DataFrame 看成是共享同一个 index 的 Series 的集合。

DataFrame 的构造方法与 Series 类似,只不过可以同时接受多条一维数据源,每一条都会成为单独的一列:

  1. >>> data = {'state':['Ohino','Ohino','Ohino','Nevada','Nevada'],
  2. 'year':[2000,2001,2002,2001,2002],
  3. 'pop':[1.5,1.7,3.6,2.4,2.9]}
  4. >>> df = DataFrame(data)
  5. >>> df
  6. pop state year
  7. 0 1.5 Ohino 2000
  8. 1 1.7 Ohino 2001
  9. 2 3.6 Ohino 2002
  10. 3 2.4 Nevada 2001
  11. 4 2.9 Nevada 2002
  12.  
  13. [5 rows x 3 columns]

虽然参数 data 看起来是个字典,但字典的键并非充当 DataFrame 的 index 的角色,而是 Series 的 “name” 属性。这里生成的 index 仍是 “01234”。

较完整的 DataFrame 构造器参数为:DataFrame(data=None,index=None,coloumns=None),columns 即 “name”:

  1. >>> df = DataFrame(data,index=['one','two','three','four','five'],
  2. columns=['year','state','pop','debt'])
  3. >>> df
  4. year state pop debt
  5. one 2000 Ohino 1.5 NaN
  6. two 2001 Ohino 1.7 NaN
  7. three 2002 Ohino 3.6 NaN
  8. four 2001 Nevada 2.4 NaN
  9. five 2002 Nevada 2.9 NaN
  10.  
  11. [5 rows x 4 columns]

同样缺失值由 NaN 补上。看一下 index、columns 和 索引的类型:

  1. >>> df.index
  2. Index(['one', 'two', 'three', 'four', 'five'], dtype='object')
  3. >>> df.columns
  4. Index(['year', 'state', 'pop', 'debt'], dtype='object')
  5. >>> type(df['debt'])
  6. <class 'pandas.core.series.Series'>

DataFrame 面向行和面向列的操作基本是平衡的,任意抽出一列都是 Series。

对象属性


重新索引

Series 对象的重新索引通过其 .reindex(index=None,**kwargs) 方法实现。**kwargs 中常用的参数有俩:method=None,fill_value=np.NaN

  1. ser = Series([4.5,7.2,-5.3,3.6],index=['d','b','a','c'])
  2. >>> a = ['a','b','c','d','e']
  3. >>> ser.reindex(a)
  4. a -5.3
  5. b 7.2
  6. c 3.6
  7. d 4.5
  8. e NaN
  9. dtype: float64
  10. >>> ser.reindex(a,fill_value=0)
  11. a -5.3
  12. b 7.2
  13. c 3.6
  14. d 4.5
  15. e 0.0
  16. dtype: float64
  17. >>> ser.reindex(a,method='ffill')
  18. a -5.3
  19. b 7.2
  20. c 3.6
  21. d 4.5
  22. e 4.5
  23. dtype: float64
  24. >>> ser.reindex(a,fill_value=0,method='ffill')
  25. a -5.3
  26. b 7.2
  27. c 3.6
  28. d 4.5
  29. e 4.5
  30. dtype: float64

.reindex() 方法会返回一个新对象,其 index 严格遵循给出的参数,method:{'backfill', 'bfill', 'pad', 'ffill', None}参数用于指定插值(填充)方式,当没有给出时,自动用 fill_value 填充,默认为 NaN(ffill = pad,bfill = back fill,分别指插值时向前还是向后取值)

DataFrame 对象的重新索引方法为:.reindex(index=None,columns=None,**kwargs)。仅比 Series 多了一个可选的 columns 参数,用于给列索引。用法与上例类似,只不过插值方法 method 参数只能应用于行,即轴 0。

  1. >>> state = ['Texas','Utha','California']
  2. >>> df.reindex(columns=state,method='ffill')
  3. Texas Utha California
  4. a 1 NaN 2
  5. c 4 NaN 5
  6. d 7 NaN 8
  7.  
  8. [3 rows x 3 columns]
  9. >>> df.reindex(index=['a','b','c','d'],columns=state,method='ffill')
  10. Texas Utha California
  11. a 1 NaN 2
  12. b 1 NaN 2
  13. c 4 NaN 5
  14. d 7 NaN 8
  15.  
  16. [4 rows x 3 columns]

不过 fill_value 依然对有效。聪明的小伙伴可能已经想到了,可不可以通过df.T.reindex(index,method='**').T 这样的方式来实现在列上的插值呢,答案是可行的。另外要注意,使用reindex(index,method='**') 的时候,index 必须是单调的,否则就会引发一个 ValueError: Must be monotonic for forward fill,比如上例中的最后一次调用,如果使用 index=['a','b','d','c'] 的话就不行。

删除指定轴上的项

即删除 Series 的元素或 DataFrame 的某一行(列)的意思,通过对象的 .drop(labels, axis=0) 方法:

  1. >>> ser
  2. d 4.5
  3. b 7.2
  4. a -5.3
  5. c 3.6
  6. dtype: float64
  7. >>> df
  8. Ohio Texas California
  9. a 0 1 2
  10. c 3 4 5
  11. d 6 7 8
  12.  
  13. [3 rows x 3 columns]
  14. >>> ser.drop('c')
  15. d 4.5
  16. b 7.2
  17. a -5.3
  18. dtype: float64
  19. >>> df.drop('a')
  20. Ohio Texas California
  21. c 3 4 5
  22. d 6 7 8
  23.  
  24. [2 rows x 3 columns]
  25. >>> df.drop(['Ohio','Texas'],axis=1)
  26. California
  27. a 2
  28. c 5
  29. d 8
  30.  
  31. [3 rows x 1 columns]

.drop() 返回的是一个新对象,元对象不会被改变。

索引和切片

就像 Numpy,pandas 也支持通过 obj[::] 的方式进行索引和切片,以及通过布尔型数组进行过滤。

不过须要注意,因为 pandas 对象的 index 不限于整数,所以当使用非整数作为切片索引时,它是末端包含的。

  1. >>> foo
  2. a 4.5
  3. b 7.2
  4. c -5.3
  5. d 3.6
  6. dtype: float64
  7. >>> bar
  8. 0 4.5
  9. 1 7.2
  10. 2 -5.3
  11. 3 3.6
  12. dtype: float64
  13. >>> foo[:2]
  14. a 4.5
  15. b 7.2
  16. dtype: float64
  17. >>> bar[:2]
  18. 0 4.5
  19. 1 7.2
  20. dtype: float64
  21. >>> foo[:'c']
  22. a 4.5
  23. b 7.2
  24. c -5.3
  25. dtype: float64

这里 foo 和 bar 只有 index 不同——bar 的 index 是整数序列。可见当使用整数索引切片时,结果与 Python 列表或 Numpy 的默认状况相同;换成 'c' 这样的字符串索引时,结果就包含了这个边界元素。

另外一个特别之处在于 DataFrame 对象的索引方式,因为他有两个轴向(双重索引)。

可以这么理解:DataFrame 对象的标准切片语法为:.ix[::,::]。ix 对象可以接受两套切片,分别为行(axis=0)和列(axis=1)的方向:

  1. >>> df
  2. Ohio Texas California
  3. a 0 1 2
  4. c 3 4 5
  5. d 6 7 8
  6.  
  7. [3 rows x 3 columns]
  8. >>> df.ix[:2,:2]
  9. Ohio Texas
  10. a 0 1
  11. c 3 4
  12.  
  13. [2 rows x 2 columns]
  14. >>> df.ix['a','Ohio']
  15. 0

而不使用 ix ,直接切的情况就特殊了:

  • 索引时,选取的是列
  • 切片时,选取的是行

这看起来有点不合逻辑,但作者解释说 “这种语法设定来源于实践”,我们信他。

  1. >>> df['Ohio']
  2. a 0
  3. c 3
  4. d 6
  5. Name: Ohio, dtype: int32
  6. >>> df[:'c']
  7. Ohio Texas California
  8. a 0 1 2
  9. c 3 4 5
  10.  
  11. [2 rows x 3 columns]
  12. >>> df[:2]
  13. Ohio Texas California
  14. a 0 1 2
  15. c 3 4 5
  16.  
  17. [2 rows x 3 columns]

使用布尔型数组的情况,注意行与列的不同切法(列切法的 : 不能省):

  1. >>> df['Texas']>=4
  2. a False
  3. c True
  4. d True
  5. Name: Texas, dtype: bool
  6. >>> df[df['Texas']>=4]
  7. Ohio Texas California
  8. c 3 4 5
  9. d 6 7 8
  10.  
  11. [2 rows x 3 columns]
  12. >>> df.ix[:,df.ix['c']>=4]
  13. Texas California
  14. a 1 2
  15. c 4 5
  16. d 7 8
  17.  
  18. [3 rows x 2 columns]

算术运算和数据对齐

pandas 最重要的一个功能是,它可以对不同索引的对象进行算术运算。在将对象相加时,结果的索引取索引对的并集。自动的数据对齐在不重叠的索引处引入空值,默认为 NaN。

  1. >>> foo = Series({'a':1,'b':2})
  2. >>> foo
  3. a 1
  4. b 2
  5. dtype: int64
  6. >>> bar = Series({'b':3,'d':4})
  7. >>> bar
  8. b 3
  9. d 4
  10. dtype: int64
  11. >>> foo + bar
  12. a NaN
  13. b 5
  14. d NaN
  15. dtype: float64

DataFrame 的对齐操作会同时发生在行和列上。

当不希望在运算结果中出现 NA 值时,可以使用前面 reindex 中提到过 fill_value 参数,不过为了传递这个参数,就需要使用对象的方法,而不是操作符:df1.add(df2,fill_value=0)。其他算术方法还有:sub(), div(), mul()

Series 和 DataFrame 之间的算术运算涉及广播,暂时先不讲。

函数应用和映射

Numpy 的 ufuncs(元素级数组方法)也可用于操作 pandas 对象。

当希望将函数应用到 DataFrame 对象的某一行或列时,可以使用 .apply(func, axis=0, args=(), **kwds) 方法。

  1. f = lambda x:x.max()-x.min()
  2. >>> df
  3. Ohio Texas California
  4. a 0 1 2
  5. c 3 4 5
  6. d 6 7 8
  7.  
  8. [3 rows x 3 columns]
  9. >>> df.apply(f)
  10. Ohio 6
  11. Texas 6
  12. California 6
  13. dtype: int64
  14. >>> df.apply(f,axis=1)
  15. a 2
  16. c 2
  17. d 2
  18. dtype: int64

排序和排名

Series 的 sort_index(ascending=True) 方法可以对 index 进行排序操作,ascending 参数用于控制升序或降序,默认为升序。

若要按值对 Series 进行排序,当使用 .order() 方法,任何缺失值默认都会被放到 Series 的末尾。

在 DataFrame 上,.sort_index(axis=0, by=None, ascending=True) 方法多了一个轴向的选择参数与一个 by 参数,by 参数的作用是针对某一(些)列进行排序(不能对行使用 by 参数):

  1. >>> df.sort_index(by='Ohio')
  2. Ohio Texas California
  3. a 0 1 2
  4. c 3 4 5
  5. d 6 7 8
  6.  
  7. [3 rows x 3 columns]
  8. >>> df.sort_index(by=['California','Texas'])
  9. Ohio Texas California
  10. a 0 1 2
  11. c 3 4 5
  12. d 6 7 8
  13.  
  14. [3 rows x 3 columns]
  15. >>> df.sort_index(axis=1)
  16. California Ohio Texas
  17. a 2 0 1
  18. c 5 3 4
  19. d 8 6 7
  20.  
  21. [3 rows x 3 columns]

排名(Series.rank(method='average', ascending=True))的作用与排序的不同之处在于,他会把对象的 values 替换成名次(从 1 到 n)。这时唯一的问题在于如何处理平级项,方法里的 method 参数就是起这个作用的,他有四个值可选:average, min, max, first

  1. >>> ser=Series([3,2,0,3],index=list('abcd'))
  2. >>> ser
  3. a 3
  4. b 2
  5. c 0
  6. d 3
  7. dtype: int64
  8. >>> ser.rank()
  9. a 3.5
  10. b 2.0
  11. c 1.0
  12. d 3.5
  13. dtype: float64
  14. >>> ser.rank(method='min')
  15. a 3
  16. b 2
  17. c 1
  18. d 3
  19. dtype: float64
  20. >>> ser.rank(method='max')
  21. a 4
  22. b 2
  23. c 1
  24. d 4
  25. dtype: float64
  26. >>> ser.rank(method='first')
  27. a 3
  28. b 2
  29. c 1
  30. d 4
  31. dtype: float64

注意在 ser[0]=ser[3] 这对平级项上,不同 method 参数表现出的不同名次。

DataFrame 的 .rank(axis=0, method='average', ascending=True) 方法多了个 axis 参数,可选择按行或列分别进行排名,暂时好像没有针对全部元素的排名方法。

统计方法

pandas 对象有一些统计方法。它们大部分都属于约简和汇总统计,用于从 Series 中提取单个值,或从 DataFrame 的行或列中提取一个 Series。

比如 DataFrame.mean(axis=0,skipna=True) 方法,当数据集中存在 NA 值时,这些值会被简单跳过,除非整个切片(行或列)全是 NA,如果不想这样,则可以通过 skipna=False 来禁用此功能:

  1. >>> df
  2. one two
  3. a 1.40 NaN
  4. b 7.10 -4.5
  5. c NaN NaN
  6. d 0.75 -1.3
  7.  
  8. [4 rows x 2 columns]
  9. >>> df.mean()
  10. one 3.083333
  11. two -2.900000
  12. dtype: float64
  13. >>> df.mean(axis=1)
  14. a 1.400
  15. b 1.300
  16. c NaN
  17. d -0.275
  18. dtype: float64
  19. >>> df.mean(axis=1,skipna=False)
  20. a NaN
  21. b 1.300
  22. c NaN
  23. d -0.275
  24. dtype: float64

其他常用的统计方法有:

######################## ******************************************
count 非 NA 值的数量
describe 针对 Series 或 DF 的列计算汇总统计
min , max 最小值和最大值
argmin , argmax 最小值和最大值的索引位置(整数)
idxmin , idxmax 最小值和最大值的索引值
quantile 样本分位数(0 到 1)
sum 求和
mean 均值
median 中位数
mad 根据均值计算平均绝对离差
var 方差
std 标准差
skew 样本值的偏度(三阶矩)
kurt 样本值的峰度(四阶矩)
cumsum 样本值的累计和
cummin , cummax 样本值的累计最大值和累计最小值
cumprod 样本值的累计积
diff 计算一阶差分(对时间序列很有用)
pct_change 计算百分数变化

处理缺失数据


pandas 中 NA 的主要表现为 np.nan,另外 Python 内建的 None 也会被当做 NA 处理。

处理 NA 的方法有四种:dropna , fillna , isnull , notnull 。

is(not)null

这一对方法对对象做元素级应用,然后返回一个布尔型数组,一般可用于布尔型索引。

dropna

对于一个 Series,dropna 返回一个仅含非空数据和索引值的 Series。

问题在于对 DataFrame 的处理方式,因为一旦 drop 的话,至少要丢掉一行(列)。这里的解决方式与前面类似,还是通过一个额外的参数:dropna(axis=0, how='any', thresh=None) ,how 参数可选的值为 any 或者 all。all 仅在切片元素全为 NA 时才抛弃该行(列)。另外一个有趣的参数是 thresh,该参数的类型为整数,它的作用是,比如 thresh=3,会在一行中至少有 3 个非 NA 值时将其保留。

fillna

fillna(value=None, method=None, axis=0) 中的 value 参数除了基本类型外,还可以使用字典,这样可以实现对不同的列填充不同的值。method 的用法与前面 .reindex() 方法相同,这里不再赘述。

inplace 参数


前面有个点一直没讲,结果整篇示例写下来发现还挺重要的。就是 Series 和 DataFrame 对象的方法中,凡是会对数组作出修改并返回一个新数组的,往往都有一个 replace=False 的可选参数。如果手动设定为 True,那么原数组就可以被替换。

转自文章:http://www.open-open.com/lib/view/open1402477162868.html

pandas 基础的更多相关文章

  1. 利用Python进行数据分析(12) pandas基础: 数据合并

    pandas 提供了三种主要方法可以对数据进行合并: pandas.merge()方法:数据库风格的合并: pandas.concat()方法:轴向连接,即沿着一条轴将多个对象堆叠到一起: 实例方法c ...

  2. 利用Python进行数据分析(9) pandas基础: 汇总统计和计算

    pandas 对象拥有一些常用的数学和统计方法.   例如,sum() 方法,进行列小计:   sum() 方法传入 axis=1 指定为横向汇总,即行小计:   idxmax() 获取最大值对应的索 ...

  3. 利用Python进行数据分析(8) pandas基础: Series和DataFrame的基本操作

    一.reindex() 方法:重新索引 针对 Series   重新索引指的是根据index参数重新进行排序. 如果传入的索引值在数据里不存在,则不会报错,而是添加缺失值的新行. 不想用缺失值,可以用 ...

  4. 利用Python进行数据分析(7) pandas基础: Series和DataFrame的简单介绍

    一.pandas 是什么 pandas 是基于 NumPy 的一个 Python 数据分析包,主要目的是为了数据分析.它提供了大量高级的数据结构和对数据处理的方法. pandas 有两个主要的数据结构 ...

  5. Pandas基础学习与Spark Python初探

    摘要:pandas是一个强大的Python数据分析工具包,pandas的两个主要数据结构Series(一维)和DataFrame(二维)处理了金融,统计,社会中的绝大多数典型用例科学,以及许多工程领域 ...

  6. numpy&pandas基础

    numpy基础 import numpy as np 定义array In [156]: np.ones(3) Out[156]: array([1., 1., 1.]) In [157]: np.o ...

  7. Pandas 基础(1) - 初识及安装 yupyter

    Hello, 大家好, 昨天说了我会再更新一个关于 Pandas 基础知识的教程, 这里就是啦......Pandas 被广泛应用于数据分析领域, 是一个很好的分析工具, 也是我们后面学习 machi ...

  8. 基于 Python 和 Pandas 的数据分析(2) --- Pandas 基础

    在这个用 Python 和 Pandas 实现数据分析的教程中, 我们将明确一些 Pandas 基础知识. 加载到 Pandas Dataframe 的数据形式可以很多, 但是通常需要能形成行和列的数 ...

  9. python学习笔记(四):pandas基础

    pandas 基础 serise import pandas as pd from pandas import Series, DataFrame obj = Series([4, -7, 5, 3] ...

  10. 数据分析02 /pandas基础

    数据分析02 /pandas基础 目录 数据分析02 /pandas基础 1. pandas简介 2. Series 3. DataFrame 4. 总结: 1. pandas简介 numpy能够帮助 ...

随机推荐

  1. [实用]DNS解析命令,静静地学会【转载】

    [实用]DNS解析命令,静静地学会 2016-08-04 06:50 一.Windows下的nslookup 简单的查某个域名,那就nslookup toutiao.com,上面是dns地址,下面是解 ...

  2. 利用npoi把多个DataTable导入Excel多个sheet中

    { 题外拓展:把datatable插入dataset DataTable fuben = new DataTable();//定义的datatablefuben = table.Tables[0].C ...

  3. PHP中json序列化后中文的编码显示问题

    在接口返回数据中,我们经常会返回json或者xml格式,php的json序列化函数json_encode非常好用,但是默认会把中文编码为ASCII码(注意,很多人认为这是乱码,其实不是),尤其在调试接 ...

  4. 转 Oracle DBCA高级玩法:从模板选择、脚本调用到多租户

    但凡是学过Oracle的同学,对DBCA(Database Configuration Assistant, DBCA)都不会陌生,有了这个工具,使得创建数据库成为可能.而DBCA本身有图形和静默两种 ...

  5. linux跨主机复制文件或文件夹

    复制文件基本格式:(本地到远程) scp 文件名 用户名@ip:文件全目录 如果是文件夹加上参数 -r scp -r 基础目录 用户名@ip:目录 栗子: scp local_file remote_ ...

  6. Filter 解决web网页跳转乱码

    为什么采用filter实现了字符集的统一编码 问题: 为什么会有字符集编码的问题呢?对于Java Web应用,使用Tomcat容器获取和传递的参数(request.getParameter())默认是 ...

  7. Spring Boot 系列教程10-freemarker导出word下载

    freemarker FreeMarker是一款模板引擎: 即一种基于模板和要改变的数据, 并用来生成输出文本(HTML网页.电子邮件.配置文件.源代码等)的通用工具. 它不是面向最终用户的,而是一个 ...

  8. Gym 100917C Constant Ratio 数论+暴力

    题目: Description standard input/outputStatements Given an integer n, find out number of ways to repre ...

  9. php cookies自动登录

    <?php header('Content-type: text/html; charset=utf-8'); error_reporting(0); //自动登陆 if($_COOKIE[&q ...

  10. [转]java构造方法的访问修饰符

    http://my.oschina.net/u/1464678/blog/210359 1.       类(class) 可见性修饰符: public—在所有类中可见,在其他包中可以用import导 ...