【学习】数据聚合和分组运算【groupby】

分组键可以有多种方式，且类型不必相同

列表或数组，某长度与待分组的轴一样
表示DataFrame某个列名的值
字典或Series，给出待分组轴上的值与分组名之间的对应关系
函数用于处理轴索引或索引中的各个标签

看一下示例：

import numpy as np

import pandas as pd

df = pd.DataFrame({'key1':['a','a','b','b','a'],

                   'key2':['one','two','one','two','one'],

                   'data1':np.random.randn(5),

                   'data2':np.random.randn(5)})

df
Out[3]: 
      data1     data2 key1 key2
0  1.236062 -0.576333    a  one
1 -1.925623 -0.874375    a  two
2  1.472156 -0.005463    b  one
3 -0.155766  2.318643    b  two
4 -1.961012 -0.947843    a  one

按key1分组，并计算data1列的平均值。访问data1，并根据key1调用groupby

#按key1分组，访问data1的平均值

df['data1'].groupby(df['key1']).mean()

Out[4]:

key1

a   -0.883525

b    0.658195

Name: data1, dtype: float64

数据根据分组键进行了聚合，产生一个新的Series，其索引为key1列中的唯一值

如果一次传入多个数组，就会得到不同的结果

df['data1'].groupby([df['key1'], df['key2']]).mean()

Out[5]:

key1  key2

a     one    -0.362475

      two    -1.925623

b     one     1.472156

      two    -0.155766

Name: data1, dtype: float64
#这里，通过两个键进行了分组，得到的Series具有一个层次化索引（由唯一的键对组成）
means.unstack()
Out[7]: 
key2       one       two
key1                    
a    -0.362475 -1.925623
b     1.472156 -0.155766

GroupBy的size方法，可以返回一个含有分组大小的Series

df.groupby(['key1', 'key2']).size()

Out[13]:

key1  key2

a     one     2

      two     1

b     one     1

      two     1

dtype: int64

注意：分组键中的任何缺失值都会被排除在结果之外

1、对分组进行迭代

GroupBy对象支持迭代，可以产生一组二元元组（由分组名和数据块组成）

for name, group in df.groupby('key1'):

    print(name)

    print(group)

a

      data1     data2 key1 key2

0  1.236062 -0.576333    a  one

1 -1.925623 -0.874375    a  two

4 -1.961012 -0.947843    a  one

b

      data1     data2 key1 key2

2  1.472156 -0.005463    b  one

3 -0.155766  2.318643    b  two

对于多重键的情况，元组的第一个元素将会是由键值组成的元组：

for (k1, k2), group in df.groupby(['key1', 'key2']):

    print(k1, k2)

    print(group)

a one

      data1     data2 key1 key2

0  1.236062 -0.576333    a  one

4 -1.961012 -0.947843    a  one

a two

      data1     data2 key1 key2

1 -1.925623 -0.874375    a  two

b one

      data1     data2 key1 key2

2  1.472156 -0.005463    b  one

b two

      data1     data2 key1 key2

3 -0.155766  2.318643    b  two

你可以对这些数据片段做任何操作，将这些数据片段做成一个字典：

pieces = dict(list(df.groupby('key1')))

pieces

Out[18]:

{'a':       data1     data2 key1 key2

 0  1.236062 -0.576333    a  one

 1 -1.925623 -0.874375    a  two

 4 -1.961012 -0.947843    a  one, 'b':       data1     data2 key1 key2

 2  1.472156 -0.005463    b  one

 3 -0.155766  2.318643    b  two}

pieces['b']
Out[19]: 
      data1     data2 key1 key2
2  1.472156 -0.005463    b  one
3 -0.155766  2.318643    b  two

groupby默认在axis = 0 上进行分组的，通过设置也可以在其他任何轴上进行分组

df.dtypes

Out[20]:

data1    float64

data2    float64

key1      object

key2      object

dtype: object

grouped = df.groupby(df.dtypes, axis = 1)

dict(list(grouped))

Out[22]:

{dtype('float64'):       data1     data2

 0  1.236062 -0.576333

 1 -1.925623 -0.874375

 2  1.472156 -0.005463

 3 -0.155766  2.318643

 4 -1.961012 -0.947843, dtype('O'):   key1 key2

 0    a  one

 1    a  two

 2    b  one

 3    b  two

 4    a  one}

2、选取一个或一组列

对于由DataFrame产生的GroupBy对象，如果用一个（单个字符串）或一组（字符串数组）列名对其进行索引，就能实现选取部分列进行聚合的目的。也就是说

df.groupby('key1')['data1']

df.groupby('key1')['data2']

df['data1'].groupby(df['key1'])

df['data2'].groupby(df['key2'])

尤其对于大数据集，很可能只需要对部分列进行聚合

df.groupby(['key1', 'key2'])[['data2']].mean()

Out[25]:

              data2

key1 key2

a    one  -0.762088

     two  -0.874375

b    one  -0.005463

     two   2.318643

这种索引操作所返回的对象是一个已分组的DataFrame或已分组的Series（如果传入的是标量形式的单个列名）

3、通过字典或Series进行分组

people.ix[2:3, ['b', 'c']] = np.nan #添加几个NA值

people

Out[29]:

               a         b         c         d         e

joe    -0.237225 -0.583231  2.506186  0.764346  2.628579

Steve  -0.125559 -0.185558 -0.226190 -1.624512 -0.988784

Wes     0.337773       NaN       NaN -2.489380 -0.064929

Jim     1.052081 -0.888873  1.227694  0.809077  1.031245

Travis  0.042581  0.793400  0.316565 -1.098852  0.129532

假设已知列的分组关系，并根据根据分组计算列的总计

#ix再回顾温习一下

mapping = {'a': 'red', 'b': 'red', 'c': 'blue', 'd': 'blue', 'e': 'red', 'f': 'orange'}

#现在只需将这个字典传给groupby即可

by_column = people.groupby(mapping, axis = 1)

by_column.sum()

Out[32]: 
            blue       red
joe     3.270531  1.808124
Steve  -1.850702 -1.299900
Wes    -2.489380  0.272844
Jim     2.036771  1.194453
Travis -0.782287  0.965513

Series也有同样的功能，被看做一个固定大小的映射，如果是Series作为分组键，则pandas会检查Series以确保其索引跟分组轴是对齐的

map_series = pd.Series(mapping)

map_series

Out[34]:

a       red

b       red

c      blue

d      blue

e       red

f    orange

dtype: object

people.groupby(map_series, axis = 1).count()

Out[35]:

        blue  red

joe        2    3

Steve      2    3

Wes        1    2

Jim        2    3

Travis     2    3

4、通过函数进行分组

根据人名的长度进行分组，虽然可以求取一个字符串长度数组，但其实仅仅传入len函数就可以

people.groupby(len).sum()

Out[36]:

          a         b         c         d         e

3  1.152630 -1.472104  3.733879 -0.915957  3.594895

5 -0.125559 -0.185558 -0.226190 -1.624512 -0.988784

6  0.042581  0.793400  0.316565 -1.098852  0.129532

将函数跟数组、列表、字典、Series混合使用，因为任何东西最终都会被转换为数组

people.groupby([len, key_list]).min()  #这个没有理解

Out[38]:

              a         b         c         d         e

3 one -0.237225 -0.583231  2.506186 -2.489380 -0.064929

  two  1.052081 -0.888873  1.227694  0.809077  1.031245

5 one -0.125559 -0.185558 -0.226190 -1.624512 -0.988784

6 two  0.042581  0.793400  0.316565 -1.098852  0.129532

5、根据索引级别分组

层次化索引数据集最方便的地方就在于它能够根据索引级别进行聚合，要实现该目的，通过level关键字传入级别编号或名称即可

columns = pd.MultiIndex.from_arrays([['US', 'US', 'US', 'JP', 'JP'], [1, 3, 5, 1, 3]], names = ['cty', 'tenor'])

hier_df = pd.DataFrame(np.random.randn(4, 5), columns = columns)

hier_df

Out[41]:

cty          US                            JP

tenor         1         3         5         1         3

0     -0.248738  0.627953  2.071784  0.245686 -1.590562

1      1.723024  0.111605 -0.520688 -0.370661 -0.287072

2      0.061884 -0.502882  0.281061  0.083908  2.224092

3     -0.341529  0.945064 -0.785416 -0.443815  0.186289

hier_df.groupby(level = 'cty', axis =1).count()

Out[42]:

cty  JP  US

0     2   3

1     2   3

2     2   3

3     2   3

二、数据聚合

任何能够从数组产生标量值的数据转换过程。比如mean、 count 、min 以及 sum等。许多常见的聚合运算都有就地计算数据集统计信息的优化实现

quantile可以计算Series或DataFrame列的样本分位数

df
Out[43]: 
      data1     data2 key1 key2
0  1.236062 -0.576333    a  one
1 -1.925623 -0.874375    a  two
2  1.472156 -0.005463    b  one
3 -0.155766  2.318643    b  two
4 -1.961012 -0.947843    a  one

grouped = df.groupby('key1')

grouped

grouped['data1'].quantile(0.9)
Out[47]: 
key1
a    0.603725
b    1.309364
Name: data1, dtype: float64
#注意：如果传入的百分位上没有值，则quantile会进行线性插值

实际上，GroupBy会高效地对Series进行切片，然后对各片调用piece， quantile(0.9)，最后将这些结果组成成最终结果

使用自己的聚合函数，只需将其传入aggregate或agg方法即可

def peak_to_peak(arr):

    return arr.max() - arr.min()

grouped.agg(peak_to_peak)

Out[49]:

         data1     data2

key1

a     3.197074  0.371510

b     1.627922  2.324107

#describe也可以这样用
grouped.describe()

Out[50]:

               data1     data2

key1

a    count  3.000000  3.000000

     mean  -0.883525 -0.799517

     std    1.835701  0.196743

     min   -1.961012 -0.947843

     25%   -1.943318 -0.911109

     50%   -1.925623 -0.874375

     75%   -0.344781 -0.725354

     max    1.236062 -0.576333

b    count  2.000000  2.000000

     mean   0.658195  1.156590

     std    1.151114  1.643392

     min   -0.155766 -0.005463

     25%    0.251215  0.575563

     50%    0.658195  1.156590

     75%    1.065176  1.737617

     max    1.472156  2.318643

经过优化的groupby方法

1、面向列的多函数应用

#备注，tips没有下载下来，这里仅作为展示实例

grouped = tips.groupby(['sex', 'smoker'])

grouped_pct = grouped(['tip_pct'])

grouped_pct.agg('mean')

grouped_pct.agg('mean', 'std', peak_to_peak)

#以无索引的形式返回聚合数据

tips.groupby(['sex', 'smoker'], as_index = False).mean()

三、分组级运算和转换

transform和apply方法，它能够执行更多其他的分组运算

为一个DataFrame添加一个用于存储各索引分组平均值的列，一个办法是先聚合再合并

df

Out[51]:

      data1     data2 key1 key2

0  1.236062 -0.576333    a  one

1 -1.925623 -0.874375    a  two

2  1.472156 -0.005463    b  one

3 -0.155766  2.318643    b  two

4 -1.961012 -0.947843    a  one

k1_means = df.groupby('key1').mean().add_prefix('mean_')

k1_means

Out[53]:

      mean_data1  mean_data2

key1

a      -0.883525   -0.799517

b       0.658195    1.156590

pd.merge(df, k1_means, left_on = 'key1', right_index = True)

Out[54]:

      data1     data2 key1 key2  mean_data1  mean_data2

0  1.236062 -0.576333    a  one   -0.883525   -0.799517

1 -1.925623 -0.874375    a  two   -0.883525   -0.799517

4 -1.961012 -0.947843    a  one   -0.883525   -0.799517

2  1.472156 -0.005463    b  one    0.658195    1.156590

3 -0.155766  2.318643    b  two    0.658195    1.156590

key = ['one', 'two', 'one', 'two',  'one']

people.groupby(key).mean()

Out[57]:

            a         b         c         d         e

one  0.047710  0.105085  1.411375 -0.941295  0.897728

two  0.463261 -0.537216  0.500752 -0.407717  0.021231

people.groupby(key).transform(np.mean)

Out[58]:

               a         b         c         d         e

joe     0.047710  0.105085  1.411375 -0.941295  0.897728

Steve   0.463261 -0.537216  0.500752 -0.407717  0.021231

Wes     0.047710  0.105085  1.411375 -0.941295  0.897728

Jim     0.463261 -0.537216  0.500752 -0.407717  0.021231

Travis  0.047710  0.105085  1.411375 -0.941295  0.897728

不难看出，transform会将一个函数应用到各个分组，然后将结果放置到适当的位置上

假设想从各分组中减去平均值，先创建一个距平化函数，然后将其传给transform

def demean(arr):

    return arr - arr.mean()

demeaned = people.groupby(key).transform(demean)

demeaned

Out[60]:

               a         b         c         d         e

joe    -0.284934 -0.688315  1.094810  1.705641  1.730852

Steve  -0.588820  0.351658 -0.726942 -1.216794 -1.010014

Wes     0.290063       NaN       NaN -1.548084 -0.962657

Jim     0.588820 -0.351658  0.726942  1.216794  1.010014

Travis -0.005129  0.688315 -1.094810 -0.157557 -0.768195

【学习】数据聚合和分组运算【groupby】的更多相关文章

pandas聚合和分组运算——GroupBy技术(1)
数据聚合与分组运算——GroupBy技术(1),有需要的朋友可以参考下. pandas提供了一个灵活高效的groupby功能,它使你能以一种自然的方式对数据集进行切片.切块.摘要等操作.根据一个或多个 ...
Python 数据分析（二本实验将学习利用 Python 数据聚合与分组运算，时间序列，金融与经济数据应用等相关知识
Python 数据分析(二) 本实验将学习利用 Python 数据聚合与分组运算,时间序列,金融与经济数据应用等相关知识第1节 groupby 技术第2节数据聚合第3节分组级运算和转换第4 ...
Python数据聚合和分组运算(1)-GroupBy Mechanics
前言 Python的pandas包提供的数据聚合与分组运算功能很强大,也很灵活.<Python for Data Analysis>这本书第9章详细的介绍了这方面的用法,但是有些细节不常用 ...
《python for data analysis》第九章，数据聚合与分组运算
# -*- coding:utf-8 -*-# <python for data analysis>第九章# 数据聚合与分组运算import pandas as pdimport nump ...
Python 数据分析—第九章数据聚合与分组运算
打算从后往前来做笔记第九章数据聚合与分组运算分组 #生成数据,五行四列 df = pd.DataFrame({'key1':['a','a','b','b','a'], 'key2':['one ...
Python之数据聚合与分组运算
Python之数据聚合与分组运算 1. 关系型数据库方便对数据进行连接.过滤.转换和聚合. 2. Hadley Wickham创建了用于表示分组运算术语"split-apply-combin ...
《利用python进行数据分析》读书笔记--第九章数据聚合与分组运算（一）
http://www.cnblogs.com/batteryhp/p/5046450.html 对数据进行分组并对各组应用一个函数,是数据分析的重要环节.数据准备好之后,通常的任务就是计算分组统计或生 ...
利用python进行数据分析之数据聚合和分组运算
对数据集进行分组并对各分组应用函数是数据分析中的重要环节. group by技术 pandas对象中的数据会根据你所提供的一个或多个键被拆分为多组,拆分操作是在对象的特定轴上执行的,然后将一个函数应用 ...
python数据分析之：数据聚合与分组运算
在数据库中,我们可以对数据进行分类,聚合运算.例如groupby操作.在pandas中同样也有类似的功能.通过这些聚合,分组操作,我们可以很容易的对数据进行转换,清洗,运算.比如如下图,首先通过不同的 ...

随机推荐

那些年,很多人没看懂的Python内置函数
Python之所以特别的简单就是因为有很多的内置函数是在你的程序"运行之前"就已经帮你运行好了,所以,可以用这个的特性简化很多的步骤.这也是让Python语言变得特别的简单的原因之 ...
JavaScript对象(第四天)
面向对象编程中,JavaScript并不完全具备封装.继承.多态:在JavaScript中,对象是一个无序的键值对集合封装JavaScript是具备的,将属性和方法定义到对象内部: 继承,在java ...
ss-R：// 链接的含义
1.问题 ss-R:// Mi41LmZ1Y2twcHBwcC50b2RheToyNDI4ODphdXRoX2FlczEyOF9tZDU6YWVzLTI1Ni1jdHI6dGxzMS4yX3RpY2t ...
Scrapy 代理IP
Scrapy 代理IP 一.Scarpy使用代理IP 1.在setting.py 配置代理服务器IP 2.在middlermares.py 配置 downloadmiddlermare(下载中间件) ...
为s5pv210烧录镜像
1.使用九鼎提供的工具,在sd卡中烧录uboot 2.重启开发板,进入uboot命令行, fdisk -c 0 fastboot 3.电脑安装fastboot驱动 fastboot烧录镜像
gitlab 添加 ssh
git 客户端无法拉取gitlab仓库代码,登陆网页端,查看仓库主页有下面的提示因此需要添加ssh公钥,才能上传下拉代码 windows平台: 首先需要安装git了. 在存放代码的目录中,右键选择 ...
一、python中的一切皆对象
1.函数和类是对象,是Python中的一级公民 (1)将函数和类赋值给一个变量将函数或类赋值给一个变量,就可以把该变量当成函数或类来使用 def ask(name): print(name) cla ...
pycrypto安装出错的问题 intmax_t C:\Program Files (x86)\Windows Kits\10\include\10.0.10240.0\ucrt\inttypes.
前言: 需要安装 Microsoft Visual Studio2017 Community 或者buildtools 解决方案一(解决了python3.7上安装pycrypto-2.6.1的错误问题 ...
[例子] nginx负载均衡搭建及测试
一.Nginx + Tomcat 负载均衡测试(负载均衡+部分静态图片处理) 环境说明: nginx+tomcat @ubuntu ok 首先你得有一个Ubuntu或者什么其他的linux. 安装j ...
CSS控制文字显示一行，超出显示省略号
这几天在项目需求里面遇到了很多之前没做过的需求,也慢慢更加认识到了css的强大,是真的强大.以后会把自己技术调研的东西都写出来,哪怕只是一点点或者很小的点,重在学习. “CSS控制文字显示一行,超出显 ...

【学习】数据聚合和分组运算【groupby】

【学习】数据聚合和分组运算【groupby】的更多相关文章

随机推荐

热门专题