简介

数据分析中经常会用到很多统计类的方法，本文将会介绍Pandas中使用到的统计方法。

变动百分百

Series和DF都有一个pct_change() 方法用来计算数据变动的百分比。这个方法在填充NaN值的时候特别有用。

ser = pd.Series(np.random.randn(8))

ser.pct_change()

Out[45]:

0         NaN

1   -1.264716

2    4.125006

3   -1.159092

4   -0.091292

5    4.837752

6   -1.182146

7   -8.721482

dtype: float64

ser

Out[46]:

0   -0.950515

1    0.251617

2    1.289537

3   -0.205155

4   -0.186426

5   -1.088310

6    0.198231

7   -1.530635

dtype: float64

pct_change还有个periods参数，可以指定计算百分比的periods，也就是隔多少个元素来计算：

In [3]: df = pd.DataFrame(np.random.randn(10, 4))

In [4]: df.pct_change(periods=3)

Out[4]:

          0         1         2         3

0       NaN       NaN       NaN       NaN

1       NaN       NaN       NaN       NaN

2       NaN       NaN       NaN       NaN

3 -0.218320 -1.054001  1.987147 -0.510183

4 -0.439121 -1.816454  0.649715 -4.822809

5 -0.127833 -3.042065 -5.866604 -1.776977

6 -2.596833 -1.959538 -2.111697 -3.798900

7 -0.117826 -2.169058  0.036094 -0.067696

8  2.492606 -1.357320 -1.205802 -1.558697

9 -1.012977  2.324558 -1.003744 -0.371806

Covariance协方差

Series.cov() 用来计算两个Series的协方差，会忽略掉NaN的数据。

In [5]: s1 = pd.Series(np.random.randn(1000))

In [6]: s2 = pd.Series(np.random.randn(1000))

In [7]: s1.cov(s2)

Out[7]: 0.0006801088174310875

同样的，DataFrame.cov() 会计算对应Series的协方差，也会忽略NaN的数据。

In [8]: frame = pd.DataFrame(np.random.randn(1000, 5), columns=["a", "b", "c", "d", "e"])

In [9]: frame.cov()

Out[9]:

          a         b         c         d         e

a  1.000882 -0.003177 -0.002698 -0.006889  0.031912

b -0.003177  1.024721  0.000191  0.009212  0.000857

c -0.002698  0.000191  0.950735 -0.031743 -0.005087

d -0.006889  0.009212 -0.031743  1.002983 -0.047952

e  0.031912  0.000857 -0.005087 -0.047952  1.042487

DataFrame.cov 带有一个min_periods参数，可以指定计算协方差的最小元素个数，以保证不会出现极值数据的情况。

In [10]: frame = pd.DataFrame(np.random.randn(20, 3), columns=["a", "b", "c"])

In [11]: frame.loc[frame.index[:5], "a"] = np.nan

In [12]: frame.loc[frame.index[5:10], "b"] = np.nan

In [13]: frame.cov()

Out[13]:

          a         b         c

a  1.123670 -0.412851  0.018169

b -0.412851  1.154141  0.305260

c  0.018169  0.305260  1.301149

In [14]: frame.cov(min_periods=12)

Out[14]:

          a         b         c

a  1.123670       NaN  0.018169

b       NaN  1.154141  0.305260

c  0.018169  0.305260  1.301149

Correlation相关系数

corr() 方法可以用来计算相关系数。有三种相关系数的计算方法：

方法名	描述
`pearson (default)`	标准相关系数
`kendall`	Kendall Tau相关系数
`spearman`	斯皮尔曼等级相关系数

n [15]: frame = pd.DataFrame(np.random.randn(1000, 5), columns=["a", "b", "c", "d", "e"])

In [16]: frame.iloc[::2] = np.nan

# Series with Series

In [17]: frame["a"].corr(frame["b"])

Out[17]: 0.013479040400098775

In [18]: frame["a"].corr(frame["b"], method="spearman")

Out[18]: -0.007289885159540637

# Pairwise correlation of DataFrame columns

In [19]: frame.corr()

Out[19]:

          a         b         c         d         e

a  1.000000  0.013479 -0.049269 -0.042239 -0.028525

b  0.013479  1.000000 -0.020433 -0.011139  0.005654

c -0.049269 -0.020433  1.000000  0.018587 -0.054269

d -0.042239 -0.011139  0.018587  1.000000 -0.017060

e -0.028525  0.005654 -0.054269 -0.017060  1.000000

corr同样也支持 min_periods ：

In [20]: frame = pd.DataFrame(np.random.randn(20, 3), columns=["a", "b", "c"])

In [21]: frame.loc[frame.index[:5], "a"] = np.nan

In [22]: frame.loc[frame.index[5:10], "b"] = np.nan

In [23]: frame.corr()

Out[23]:

          a         b         c

a  1.000000 -0.121111  0.069544

b -0.121111  1.000000  0.051742

c  0.069544  0.051742  1.000000

In [24]: frame.corr(min_periods=12)

Out[24]:

          a         b         c

a  1.000000       NaN  0.069544

b       NaN  1.000000  0.051742

c  0.069544  0.051742  1.000000

corrwith 可以计算不同DF间的相关系数。

In [27]: index = ["a", "b", "c", "d", "e"]

In [28]: columns = ["one", "two", "three", "four"]

In [29]: df1 = pd.DataFrame(np.random.randn(5, 4), index=index, columns=columns)

In [30]: df2 = pd.DataFrame(np.random.randn(4, 4), index=index[:4], columns=columns)

In [31]: df1.corrwith(df2)

Out[31]:

one     -0.125501

two     -0.493244

three    0.344056

four     0.004183

dtype: float64

In [32]: df2.corrwith(df1, axis=1)

Out[32]:

a   -0.675817

b    0.458296

c    0.190809

d   -0.186275

e         NaN

dtype: float64

rank等级

rank方法可以对Series中的数据进行排列等级。什么叫等级呢？我们举个例子：

s = pd.Series(np.random.randn(5), index=list("abcde"))

s

Out[51]:

a    0.336259

b    1.073116

c   -0.402291

d    0.624186

e   -0.422478

dtype: float64

s["d"] = s["b"]  # so there's a tie

s

Out[53]:

a    0.336259

b    1.073116

c   -0.402291

d    1.073116

e   -0.422478

dtype: float64

s.rank()

Out[54]:

a    3.0

b    4.5

c    2.0

d    4.5

e    1.0

dtype: float64

上面我们创建了一个Series，里面的数据从小到大排序：

-0.422478 < -0.402291 <  0.336259 <  1.073116 < 1.073116

所以相应的rank就是 1 ， 2 ，3 ，4 ， 5.

因为我们有两个值是相同的，默认情况下会取两者的平均值，也就是 4.5.

除了 default_rank ，还可以指定max_rank ，这样每个值都是最大的5 。

还可以指定 NA_bottom ，表示对于NaN的数据也用来计算rank，并且会放在最底部，也就是最大值。

还可以指定 pct_rank ， rank值是一个百分比值。

df = pd.DataFrame(data={'Animal': ['cat', 'penguin', 'dog',

...                                    'spider', 'snake'],

...                         'Number_legs': [4, 2, 4, 8, np.nan]})

>>> df

    Animal  Number_legs

0      cat          4.0

1  penguin          2.0

2      dog          4.0

3   spider          8.0

4    snake          NaN

df['default_rank'] = df['Number_legs'].rank()

>>> df['max_rank'] = df['Number_legs'].rank(method='max')

>>> df['NA_bottom'] = df['Number_legs'].rank(na_option='bottom')

>>> df['pct_rank'] = df['Number_legs'].rank(pct=True)

>>> df

    Animal  Number_legs  default_rank  max_rank  NA_bottom  pct_rank

0      cat          4.0           2.5       3.0        2.5     0.625

1  penguin          2.0           1.0       1.0        1.0     0.250

2      dog          4.0           2.5       3.0        2.5     0.625

3   spider          8.0           4.0       4.0        4.0     1.000

4    snake          NaN           NaN       NaN        5.0       NaN

rank还可以指定按行 (axis=0) 或者按列 (axis=1)来计算。

In [36]: df = pd.DataFrame(np.random.randn(10, 6))

In [37]: df[4] = df[2][:5]  # some ties

In [38]: df

Out[38]:

          0         1         2         3         4         5

0 -0.904948 -1.163537 -1.457187  0.135463 -1.457187  0.294650

1 -0.976288 -0.244652 -0.748406 -0.999601 -0.748406 -0.800809

2  0.401965  1.460840  1.256057  1.308127  1.256057  0.876004

3  0.205954  0.369552 -0.669304  0.038378 -0.669304  1.140296

4 -0.477586 -0.730705 -1.129149 -0.601463 -1.129149 -0.211196

5 -1.092970 -0.689246  0.908114  0.204848       NaN  0.463347

6  0.376892  0.959292  0.095572 -0.593740       NaN -0.069180

7 -1.002601  1.957794 -0.120708  0.094214       NaN -1.467422

8 -0.547231  0.664402 -0.519424 -0.073254       NaN -1.263544

9 -0.250277 -0.237428 -1.056443  0.419477       NaN  1.375064

In [39]: df.rank(1)

Out[39]:

     0    1    2    3    4    5

0  4.0  3.0  1.5  5.0  1.5  6.0

1  2.0  6.0  4.5  1.0  4.5  3.0

2  1.0  6.0  3.5  5.0  3.5  2.0

3  4.0  5.0  1.5  3.0  1.5  6.0

4  5.0  3.0  1.5  4.0  1.5  6.0

5  1.0  2.0  5.0  3.0  NaN  4.0

6  4.0  5.0  3.0  1.0  NaN  2.0

7  2.0  5.0  3.0  4.0  NaN  1.0

8  2.0  5.0  3.0  4.0  NaN  1.0

9  2.0  3.0  1.0  4.0  NaN  5.0

本文已收录于 http://www.flydean.com/10-python-pandas-statistical/

最通俗的解读，最深刻的干货，最简洁的教程，众多你不知道的小技巧等你来发现！

Pandas高级教程之:统计方法的更多相关文章

Pandas高级教程之:GroupBy用法
Pandas高级教程之:GroupBy用法目录简介分割数据多index get_group dropna groups属性 index的层级 group的遍历聚合操作通用聚合方法同时使用 ...
Pandas高级教程之:window操作
目录简介滚动窗口 Center window Weighted window 加权窗口扩展窗口指数加权窗口简介在数据统计中,经常需要进行一些范围操作,这些范围我们可以称之为一个window ...
Pandas高级教程之:时间处理
目录简介时间分类 Timestamp DatetimeIndex date_range 和 bdate_range origin 格式化 Period DateOffset 作为index 切片和 ...
Pandas高级教程之:处理text数据
目录简介创建text的DF String 的方法 columns的String操作分割和替换String String的连接使用 .str来index extract extractall c ...
Pandas高级教程之:处理缺失数据
目录简介 NaN的例子整数类型的缺失值 Datetimes 类型的缺失值 None 和 np.nan 的转换缺失值的计算使用fillna填充NaN数据使用dropna删除包含NA的数据插值 ...
Pandas高级教程之:plot画图详解
目录简介基础画图其他图像 bar stacked bar barh Histograms box Area Scatter Hexagonal bin Pie 在画图中处理NaN数据其他作图工 ...
Pandas高级教程之:自定义选项
目录简介常用选项 get/set 选项经常使用的选项最大展示行数超出数据展示最大列的宽度显示精度零转换的门槛列头的对齐方向简介 pandas有一个option系统可以控制panda ...
Pandas高级教程之:Dataframe的合并
目录简介使用concat 使用append 使用merge 使用join 覆盖数据简介 Pandas提供了很多合并Series和Dataframe的强大的功能,通过这些功能可以方便的进行数据分析 ...
Pandas高级教程之:category数据类型
目录简介创建category 使用Series创建使用DF创建创建控制转换为原始类型 categories的操作获取category的属性重命名categories 使用add_cate ...

随机推荐

解析CentOS 8上的Xrdp服务器安装
解析CentOS 8上的Xrdp服务器安装 Linux系统技术交流QQ群(915246)验证问题答案:刘遄导读 Xrdp 是 Microsoft 远程桌面协议 (RDP) 的开源实现,允许您以图 ...
power delivery功率输出
delivery
Qt 设置中文
1. 前言在编写Qt应用程序时,有时会希望能直接设置中文字符串到界面,总结下其设置方法. 2. 设置中文 1)运行环境Qt5.5 VS2013 2)首先,查看需要设置中文的文件是否为UTF-8格式, ...
重新整理 .net core 实践篇————配置系统之盟约[五]
前言在asp .net core 中我们会看到一个appsettings.json 文件,它就是我们在服务中的各种配置,是至关重要的一部门. 不管是官方自带的服务,还是我们自己编写的服务都是用它来实 ...
leetcode -- 二进制
leetcode -- 二进制在学习编程语言的运算符时,大部分语言都会有与,或等二进制运算符,我在初期学习这些运算符的时候,并没有重点留意这些运算符,并且在后续的业务代码中也没有频繁的使用过,直到后 ...
Docker学习(8) Docker的CS模式
Docker的CS模式链接方式 socket
javascript数组排序算法之选择排序
前言作为一名程序员数组的排序算法是必须要掌握的,今天来图解----选择排序选择排序原理首先在未排序序列中找到最小(大)元素,存放到排序序列的起始位置,然后,再从剩余未排序元素中继续寻找最小(大) ...
vmware workstation linux虚拟机点击suspend会卡死
vmware workstation linux虚拟机点击suspend会卡死, 现象如图, 我测过很多发行版都有这个问题临时解决方案是关闭suspend功能 sudo systemctl mask ...
CVD-ALD前驱体材料
CVD-ALD前驱体材料 ALD前驱体源瓶特点是什么 ALD前驱体源瓶(起泡器)用于固态.液态及气态超纯物料类的封装,涉及微正压.常压.中低压的危险化学品,对源瓶的安全性和洁净度提出严苛的要求. ...
TTC测距算法
TTC测距算法输入输出接口 Input:(1)人与车(或车与车)的距离 (2)人与车(或车与车)的相对速度 Output:TTC collision time 算法介绍和设计方案 TTC是Time- ...

Pandas高级教程之:统计方法