Pandas分组统计函数：groupby、pivot

利用python的pandas库进行数据分组分析十分便捷，其中应用最多的方法包括：groupby、pivot_table及crosstab，以下分别进行介绍。

0、样例数据

df = DataFrame({'key1':['a','a','b','b','a'],'key2':['one','two','one','two','one'],'data1':np.random.randn(5),'data2':np.random.randn(5)})

df

#[Out]#       data1     data2 key1 key2

#[Out]# 0  0.439801  1.582861    a  one

#[Out]# 1 -1.388267 -0.603653    a  two

#[Out]# 2 -0.514400 -0.826736    b  one

#[Out]# 3 -1.487224 -0.192404    b  two

#[Out]# 4  2.169966  0.074715    a  one

1、分组groupby

Pandas中最为常用和有效的分组函数。

1）按列分组

注意以下使用groupby()函数生成的group1是一个中间分组变量，为GroupBy类型。

group1 = df.groupby('key1')

group1

#[Out]# <pandas.core.groupby.DataFrameGroupBy object at 0x0000000009CA5780>

既可依据单个列名’key1’进行为分组，也可依据多个列名['key1','key2']进行分组。

group2 = df.groupby(['key1','key2'])

group2

#[Out]# <pandas.core.groupby.DataFrameGroupBy object at 0x0000000009CB4128>

使用推导式[x for x in group1]可显示分组内容。

[x for x in group1]

#[Out]# [('a',       data1     data2 key1 key2

#[Out]#   0  0.439801  1.582861    a  one

#[Out]#   1 -1.388267 -0.603653    a  two

#[Out]#   4  2.169966  0.074715    a  one),

#[Out]#  ('b',       data1     data2 key1 key2

#[Out]#   2 -0.514400 -0.826736    b  one

#[Out]#   3 -1.487224 -0.192404    b  two)]

2）按分组统计

在分组group1、group2上应用size()、sum()、count()等统计函数，能分别统计分组数量、不同列的分组和、不同列的分组数量。

group1.size()

#[Out]# key1

#[Out]# a    3

#[Out]# b    2

#[Out]# dtype: int64

group1.sum()

#[Out]#          data1     data2

#[Out]# key1

#[Out]# a     1.221499  1.053922

#[Out]# b    -2.001624 -1.019140

group2.size()

#[Out]# key1  key2

#[Out]# a     one     2

#[Out]#       two     1

#[Out]# b     one     1

#[Out]#       two     1

#[Out]# dtype: int64

group2.count()

#[Out]#            data1  data2

#[Out]# key1 key2

#[Out]# a    one       2      2

#[Out]#      two       1      1

#[Out]# b    one       1      1

#[Out]#      two       1      1

3）应用agg()

对于分组的某一列或者多个列，应用agg(func)可以对分组后的数据应用func函数。例如：用group1['data1'].agg('mean')对分组后的’data1’列求均值。当然也可以推广到同时作用于多个列和使用多个函数上。

group1['data1'].agg('mean')

#[Out]# key1

#[Out]# a    0.407166

#[Out]# b   -1.000812

#[Out]# Name: data1, dtype: float64

group1['data1'].agg(['mean','sum'])

#[Out]#           mean       sum

#[Out]# key1

#[Out]# a     0.407166  1.221499

#[Out]# b    -1.000812 -2.001624

group1['data1','data2'].agg(['mean','sum'])

#[Out]#          data1               data2

#[Out]#           mean       sum      mean       sum

#[Out]# key1

#[Out]# a     0.407166  1.221499  0.351307  1.053922

#[Out]# b    -1.000812 -2.001624 -0.509570 -1.019140

4）应用apply()

apply()不同于agg()的地方在于：前者应用于dataframe的各个列，后者仅作用于指定的列。

df.groupby('key1').apply(mean)

#[Out]#          data1     data2

#[Out]# key1

#[Out]# a     0.407166  0.351307

#[Out]# b    -1.000812 -0.509570

df.groupby(['key1','key2']).apply(mean)

#[Out]#               data1     data2

#[Out]# key1 key2

#[Out]# a    one   1.304883  0.828788

#[Out]#      two  -1.388267 -0.603653

#[Out]# b    one  -0.514400 -0.826736

#[Out]#      two  -1.487224 -0.192404

2、透视表pivot_table

可以产生类似于excel数据透视表的结果，相当的直观。

1）分组统计

其中参数index指定“行”键，columns指定“列”键。

df

#[Out]#       data1     data2 key1 key2

#[Out]# 0  0.439801  1.582861    a  one

#[Out]# 1 -1.388267 -0.603653    a  two

#[Out]# 2 -0.514400 -0.826736    b  one

#[Out]# 3 -1.487224 -0.192404    b  two

#[Out]# 4  2.169966  0.074715    a  one

pd.pivot_table(df, index='key1', columns='key2')

#[Out]#          data1               data2

#[Out]# key2       one       two       one       two

#[Out]# key1

#[Out]# a     1.304883 -1.388267  0.828788 -0.603653

#[Out]# b    -0.514400 -1.487224 -0.826736 -0.192404

df.pivot_table(['data1'], index='key1',columns='key2')

#[Out]#          data1

#[Out]# key2       one       two

#[Out]# key1

#[Out]# a     1.304883 -1.388267

#[Out]# b    -0.514400 -1.487224

2）分项汇总

如果将参数margins设置为True，则可以得到分项总计数据。

df.pivot_table(index='key1',columns='key2', margins=True)

#[Out]#          data1                         data2

#[Out]# key2       one       two       All       one       two       All

#[Out]# key1

#[Out]# a     1.304883 -1.388267  0.407166  0.828788 -0.603653  0.351307

#[Out]# b    -0.514400 -1.487224 -1.000812 -0.826736 -0.192404 -0.509570

#[Out]# All   0.698455 -1.437746 -0.156025  0.276947 -0.398029  0.006956

3、交叉表crosstab

可以按照指定的行和列统计分组频数，用起来非常方便；当然同样的功能也可采用groupby实现。

pd.crosstab(df.key1,df.key2, margins=True)

#[Out]# key2  one  two  All

#[Out]# key1

#[Out]# a       2    1    3

#[Out]# b       1    1    2

#[Out]# All     3    2    5

很幸运能够有这么多好用的方法，大大简化了数据分组分析的过程。

Pandas分组统计函数：groupby、pivot_table及crosstab的更多相关文章

Pandas分组（GroupBy）
任何分组(groupby)操作都涉及原始对象的以下操作之一.它们是 - 分割对象应用一个函数结合的结果在许多情况下,我们将数据分成多个集合,并在每个子集上应用一些函数.在应用函数中,可以执行以下 ...
pandas分组统计：groupby，melt，pivot_table，crosstab的用法
groupby: 分组 melt: 宽表转长表 pivot_table: 长表转宽表,数据透视表 crosstab: 交叉表 / 列联表,主要用于分组频数统计 import numpy as np i ...
Pandas分组运算（groupby）修炼
Pandas分组运算(groupby)修炼 Pandas的groupby()功能很强大,用好了可以方便的解决很多问题,在数据处理以及日常工作中经常能施展拳脚. 今天,我们一起来领略下groupby() ...
pandas聚合和分组运算——GroupBy技术(1)
数据聚合与分组运算——GroupBy技术(1),有需要的朋友可以参考下. pandas提供了一个灵活高效的groupby功能,它使你能以一种自然的方式对数据集进行切片.切块.摘要等操作.根据一个或多个 ...
Python Pandas分组聚合
Pycharm 鼠标移动到函数上,CTRL+Q可以快速查看文档,CTR+P可以看基本的参数. apply(),applymap()和map() apply()和applymap()是DataFrame ...
数据分组分析—-groupby
数据分组分析—-groupby 代码功能: 对于综合表格data,基于title进行分组处理,并统计每一组的size,得到的是一个series序列,此序列可以放入索引中使用,index() impor ...
Pandas透视表（pivot_table）详解
介绍也许大多数人都有在Excel中使用数据透视表的经历,其实Pandas也提供了一个类似的功能,名为pivot_table.虽然pivot_table非常有用,但是我发现为了格式化输出我所需要的内容 ...
Pandas分组
GroupBy技术分组运算的过程可以用下面的流程图表示出来 import pandas as pd from pandas import Series import numpy as np df = ...
pandas分组和聚合
Pandas分组与聚合分组 (groupby) 对数据集进行分组,然后对每组进行统计分析 SQL能够对数据进行过滤,分组聚合 pandas能利用groupby进行更加复杂的分组运算分组运算过程:s ...

随机推荐

spring boot 创建web项目并使用jsp作前台页面
参考链接:https://www.cnblogs.com/sxdcgaq8080/p/7712874.html
http认证中的nonce与timestamp解释
Nonce是由服务器生成的一个随机数,在客户端第一次请求页面时将其发回客户端:客户端拿到这个Nonce,将其与用户密码串联在一起并进行非可逆加密(MD5.SHA1等等),然后将这个加密后的字符串和用户 ...
React Router页面传值的三种方法
文章地址:https://blog.csdn.net/qq_23158083/article/details/68488831
apache benchmark并发测试工具使用
ab是apache自带的压力测试工具.ab非常实用,它不仅可以对apache服务器进行网站访问压力测试,也可以对或其它类型的服务器进行压力测试.比如nginx.tomcat.IIS等. 一.Apach ...
使用antd-mobile的ImagePicker组件实现图片的上传
这篇文章主要是记录一下在开发钉钉微应用时,实现图片上传及显示功能的过程. 这个项目用的dingyou-dingtalk-mobile这个脚手架,可直接在NowaGui上创建.这是一个关于钉钉微应用的脚 ...
C# 条件表达式max=(a>b)?a:b;含义
a?b:c 这个是条件表达式,表示如果a为真,则表达式值为b,如果a为假,则表达式值为c条件表达式具体说明如下条件语句: if(a>b) max=a; else max=b; 可用条件表达式写为 ...
利用ML&AI判定未知恶意程序——里面提到ssl恶意加密流检测使用N个payload CNN + 字节分布包长等特征综合判定
利用ML&AI判定未知恶意程序导语:0x01.前言在上一篇ML&AI如何在云态势感知产品中落地中介绍了,为什么我们要预测未知恶意程序,传统的安全产品已经无法满足现有的安全态势.那么 ...
牛客网 PAT 算法历年真题 1010 ：月饼 (25)
月饼 (25) 时间限制 1000 ms 内存限制 32768 KB 代码长度限制 100 KB 判断程序 Standard (来自小小) 题目描述月饼是中国人在中秋佳节时吃的一种传统食品,不同地 ...
redux源码解析(深度解析redux+异步demo)
redux源码解析 1.首先让我们看看都有哪些内容 2.让我们看看redux的流程图 Store:一个库,保存数据的地方,整个项目只有一个创建store Redux提供 creatStore 函数来 ...
在引用的laravel的@include子模板中传递参数
调用传参: @include("message",['msg'=>'中国']) 在message子模板中调用msg的值: {{msg}}

Pandas分组统计函数：groupby、pivot_table及crosstab

Pandas分组统计函数：groupby、pivot_table及crosstab的更多相关文章

随机推荐

热门专题