Pandas统计函数

NAVYSUMMER 2024-09-29 22:26:13 原文

统计方法有助于理解和分析数据的行为。现在我们将学习一些统计函数，可以将这些函数应用到Pandas的对象上。

pct_change()函数

系列，DatFrames和Panel都有pct_change()函数。此函数将每个元素与其前一个元素进行比较，并计算变化百分比。

import pandas as pd

import numpy as np

s = pd.Series([1,2,3,4,5,4])

print (s.pct_change())

df = pd.DataFrame(np.random.randn(5, 2))

print (df.pct_change())

Python

执行上面示例代码，得到以下结果 -

0        NaN

1   1.000000

2   0.500000

3   0.333333

4   0.250000

5  -0.200000

dtype: float64

            0          1

0         NaN        NaN

1  -15.151902   0.174730

2  -0.746374   -1.449088

3  -3.582229   -3.165836

4   15.601150  -1.860434

Shell

默认情况下，pct_change()对列进行操作; 如果想应用到行上，那么可使用axis = 1参数。

协方差

协方差适用于系列数据。Series对象有一个方法cov用来计算序列对象之间的协方差。NA将被自动排除。

Cov系列示例

import pandas as pd

import numpy as np

s1 = pd.Series(np.random.randn(10))

s2 = pd.Series(np.random.randn(10))

print (s1.cov(s2))

Python

执行上面示例代码，得到以下结果 -

0.0667296739178

Python

当应用于DataFrame时，协方差方法计算所有列之间的协方差(cov)值。

import pandas as pd

import numpy as np

frame = pd.DataFrame(np.random.randn(10, 5), columns=['a', 'b', 'c', 'd', 'e'])

print (frame['a'].cov(frame['b']))

print (frame.cov())

Python

执行上面示例代码，得到以下结果 -

-0.406796939839

          a         b         c         d         e

a  0.784886 -0.406797  0.181312  0.513549 -0.597385

b -0.406797  0.987106 -0.662898 -0.492781  0.388693

c  0.181312 -0.662898  1.450012  0.484724 -0.476961

d  0.513549 -0.492781  0.484724  1.571194 -0.365274

e -0.597385  0.388693 -0.476961 -0.365274  0.785044

Shell

注 - 观察第一个语句中a和b列之间的cov结果值，与由DataFrame上的cov返回的值相同。

相关性

相关性显示了任何两个数值(系列)之间的线性关系。有多种方法来计算pearson(默认)，spearman和kendall之间的相关性。

import pandas as pd

import numpy as np

frame = pd.DataFrame(np.random.randn(10, 5), columns=['a', 'b', 'c', 'd', 'e'])

print (frame['a'].corr(frame['b']))

print (frame.corr())

Python

执行上面示例代码，得到以下结果 -

-0.613999376618

          a         b         c         d         e

a  1.000000 -0.613999 -0.040741 -0.227761 -0.192171

b -0.613999  1.000000  0.012303  0.273584  0.591826

c -0.040741  0.012303  1.000000 -0.391736 -0.470765

d -0.227761  0.273584 -0.391736  1.000000  0.364946

e -0.192171  0.591826 -0.470765  0.364946  1.000000

Shell

如果DataFrame中存在任何非数字列，则会自动排除。

数据排名

数据排名为元素数组中的每个元素生成排名。在关系的情况下，分配平均等级。

import pandas as pd

import numpy as np

s = pd.Series(np.random.np.random.randn(5), index=list('abcde'))

s['d'] = s['b'] # so there's a tie

print (s.rank())

Python

执行上面示例代码，得到以下结果 -

a    4.0

b    1.5

c    3.0

d    1.5

e    5.0

dtype: float64

Shell

Rank可选地使用一个默认为true的升序参数; 当错误时，数据被反向排序，也就是较大的值被分配较小的排序。

Rank支持不同的tie-breaking方法，用方法参数指定 -

average - 并列组平均排序等级
min - 组中最低的排序等级
max - 组中最高的排序等级
first - 按照它们出现在数组中的顺序分配队列

Pandas统计函数的更多相关文章

第十一节：pandas统计函数
1.pct_change()计算增长比例 2.cov()协方差 3.corr()相关系数 4.rank()数据排名 5.numpy聚合函数
Pandas学习笔记（三）
(1)系列对象( Series)基本功能编号属性或方法描述 1 axes 返回行轴标签列表. 2 dtype 返回对象的数据类型(dtype). 3 empty 如果系列为空,则返回True. ...
pandas使用总结
一.pandas简介 Pandas是基于Numpy开发出的,是一款开放源码的BSD许可的Python库,为Python编程语言提供了高性能,易于使用的数据结构和数据分析工具.Pandas用于广泛的领域 ...
Pandas教程目录
Pandas数据结构 Pandas系列 Pandas数据帧(DataFrame) Pandas面板(Panel) Pandas基本功能 Pandas描述性统计 Pandas函数应用 Pandas重建索 ...
Python人工智能学习笔记
Python教程 Python 教程 Python 简介 Python 环境搭建 Python 中文编码 Python 基础语法 Python 变量类型 Python 运算符 Python 条件语句 ...
Pandas分组统计函数：groupby、pivot_table及crosstab
利用python的pandas库进行数据分组分析十分便捷,其中应用最多的方法包括:groupby.pivot_table及crosstab,以下分别进行介绍. 0.样例数据 df = DataFram ...
Pandas | 14 统计函数
统计方法有助于理解和分析数据的行为.可以将这些统计函数应用到Pandas的对象上. pct_change()函数系列,DatFrames和Panel都有pct_change()函数.此函数将每个元素 ...
Pandas数据统计函数
Pandas数据统计函数汇总类统计唯一去重和按值计数相关系数和协方差 0.读取csv数据 1.汇总类统计 2.唯一去重和按值计数 2.1 唯一性去重一般不用于数值列,而是枚举.分类列 2.2 ...
pandas的数据统计函数
# 1汇总类统计 # 2唯一去重和按值计数 # 3 相关系数和协方差 import pandas as pd # 0 读取csv数据 df = pd.read_csv("beijing_ti ...

随机推荐

HDU 1863 畅通工程(Kruskal)
畅通工程 Time Limit: 1000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others) Total Submi ...
HDU 1233 还是畅通工程(Kruskal)
还是畅通工程 Time Limit: 4000/2000 MS (Java/Others) Memory Limit: 65536/32768 K (Java/Others) Total Sub ...
Powershell计算时间间隔（New-TimeSpan）
在Windows PowerShell里New-TimeSpan cmdlet提供了一种方法做日期算法. 计算时间间隔: 这个命令告诉你今天的日期与2006年除夕之间的天数: New-TimeSpan ...
SpringMVC 之数据转换和国际化
1. 数据绑定流程 SpringMVC 主框架将 ServletRequest 对象及目标方法的入参实例传递给 WebDataBinderFactory 实例,以创建 DataBinder 实例对象; ...
CentOS7保留默认Python版本并安装更新Python2和Python3共存
CentOS 7 默认的python版本是python2.7.5.因为yum依赖于默认的python版本的缘由,所以要先保留默认版本,并修改yum文件头部后,才能开始安装更新python2和pytho ...
协程+IO切换实现并发
from gevent import monkey # 以后代码中遇到IO都会自动执行greenlet的switch进行切换 monkey.patch_all() import requests im ...
Tomcat的session
创建session 在具体说明session的创建过程之前,先看一下BS访问模型: browser发送Http request: tomcat内核Http11Processor会从HTTP requ ...
006-shiro授权
一.授权流程二.三种授权方式 2.1.编程式:通过写if/else 授权代码块完成: Subject subject = SecurityUtils.getSubject(); if(subject ...
Ionic 3 项目的工程目录结构（转载）
工程目录结构说明如下图
关于 sql server 基本使用的建议
1. 把现有的表插入到新表,(表不能存在),为表备份. -- select * into NewTable from OldTable (NewTable 在select 查询的 ...