pandas-09 pd.groupby()的用法

在pandas中的groupby和在sql语句中的groupby有异曲同工之妙，不过也难怪，毕竟关系数据库中的存放数据的结构也是一张大表罢了，与dataframe的形式相似。

import numpy as np

import pandas as pd

from pandas import Series, DataFrame

df = pd.read_csv('./city_weather.csv')

print(df)

'''

          date city  temperature  wind

0   03/01/2016   BJ            8     5

1   17/01/2016   BJ           12     2

2   31/01/2016   BJ           19     2

3   14/02/2016   BJ           -3     3

4   28/02/2016   BJ           19     2

5   13/03/2016   BJ            5     3

6   27/03/2016   SH           -4     4

7   10/04/2016   SH           19     3

8   24/04/2016   SH           20     3

9   08/05/2016   SH           17     3

10  22/05/2016   SH            4     2

11  05/06/2016   SH          -10     4

12  19/06/2016   SH            0     5

13  03/07/2016   SH           -9     5

14  17/07/2016   GZ           10     2

15  31/07/2016   GZ           -1     5

16  14/08/2016   GZ            1     5

17  28/08/2016   GZ           25     4

18  11/09/2016   SZ           20     1

19  25/09/2016   SZ          -10     4

'''

g = df.groupby(df['city'])

# <pandas.core.groupby.groupby.DataFrameGroupBy object at 0x7f10450e12e8>

print(g.groups)

# {'BJ': Int64Index([0, 1, 2, 3, 4, 5], dtype='int64'),

# 'GZ': Int64Index([14, 15, 16, 17], dtype='int64'),

# 'SZ': Int64Index([18, 19], dtype='int64'),

# 'SH': Int64Index([6, 7, 8, 9, 10, 11, 12, 13], dtype='int64')}

print(g.size()) # g.size() 可以统计每个组 成员的 数量

'''

city

BJ    6

GZ    4

SH    8

SZ    2

dtype: int64

'''

print(g.get_group('BJ')) # 得到 某个 分组

'''

         date city  temperature  wind

0  03/01/2016   BJ            8     5

1  17/01/2016   BJ           12     2

2  31/01/2016   BJ           19     2

3  14/02/2016   BJ           -3     3

4  28/02/2016   BJ           19     2

5  13/03/2016   BJ            5     3

'''

df_bj = g.get_group('BJ')

print(df_bj.mean()) # 对这个 分组 求平均

'''

temperature    10.000000

wind            2.833333

dtype: float64

'''

# 直接使用 g 对象，求平均值

print(g.mean()) # 对 每一个 分组， 都计算分组

'''

      temperature      wind

city

BJ         10.000  2.833333

GZ          8.750  4.000000

SH          4.625  3.625000

SZ          5.000  2.500000

'''

print(g.max())

'''

            date  temperature  wind

city

BJ    31/01/2016           19     5

GZ    31/07/2016           25     5

SH    27/03/2016           20     5

SZ    25/09/2016           20     4

'''

print(g.min())

'''

            date  temperature  wind

city

BJ    03/01/2016           -3     2

GZ    14/08/2016           -1     2

SH    03/07/2016          -10     2

SZ    11/09/2016          -10     1

'''

# g 对象还可以使用 for 进行循环遍历

for name, group in g:

    print(name)

    print(group)

# g 可以转化为 list类型， dict类型

print(list(g)) # 元组第一个元素是 分组的label，第二个是dataframe

'''

[('BJ',          date city  temperature  wind

0  03/01/2016   BJ            8     5

1  17/01/2016   BJ           12     2

2  31/01/2016   BJ           19     2

3  14/02/2016   BJ           -3     3

4  28/02/2016   BJ           19     2

5  13/03/2016   BJ            5     3),

('GZ',           date city  temperature  wind

14  17/07/2016   GZ           10     2

15  31/07/2016   GZ           -1     5

16  14/08/2016   GZ            1     5

17  28/08/2016   GZ           25     4),

('SH',           date city  temperature  wind

6   27/03/2016   SH           -4     4

7   10/04/2016   SH           19     3

8   24/04/2016   SH           20     3

9   08/05/2016   SH           17     3

10  22/05/2016   SH            4     2

11  05/06/2016   SH          -10     4

12  19/06/2016   SH            0     5

13  03/07/2016   SH           -9     5),

('SZ',           date city  temperature  wind

18  11/09/2016   SZ           20     1

19  25/09/2016   SZ          -10     4)]

'''

print(dict(list(g))) # 返回键值对，值的类型是 dataframe

'''

{'SH':           date city  temperature  wind

6   27/03/2016   SH           -4     4

7   10/04/2016   SH           19     3

8   24/04/2016   SH           20     3

9   08/05/2016   SH           17     3

10  22/05/2016   SH            4     2

11  05/06/2016   SH          -10     4

12  19/06/2016   SH            0     5

13  03/07/2016   SH           -9     5,

'SZ':           date city  temperature  wind

18  11/09/2016   SZ           20     1

19  25/09/2016   SZ          -10     4,

'GZ':           date city  temperature  wind

14  17/07/2016   GZ           10     2

15  31/07/2016   GZ           -1     5

16  14/08/2016   GZ            1     5

17  28/08/2016   GZ           25     4,

'BJ':          date city  temperature  wind

0  03/01/2016   BJ            8     5

1  17/01/2016   BJ           12     2

2  31/01/2016   BJ           19     2

3  14/02/2016   BJ           -3     3

4  28/02/2016   BJ           19     2

5  13/03/2016   BJ            5     3}

'''

pandas-09 pd.groupby()的用法的更多相关文章

数据分析面试题之Pandas中的groupby
昨天晚上,笔者有幸参加了一场面试,有一个环节就是现场编程!题目如下: 示例数据如下,求每名学生(ID)对应的成绩(score)最高的那门科目(class)与ID,用Python实现: 这个题目 ...
pandas pivot_table或者groupby实现sql 中的count distinct 功能
pandas pivot_table或者groupby实现sql 中的count distinct 功能 import pandas as pd import numpy as np data = p ...
Pandas分组（GroupBy）
任何分组(groupby)操作都涉及原始对象的以下操作之一.它们是 - 分割对象应用一个函数结合的结果在许多情况下,我们将数据分成多个集合,并在每个子集上应用一些函数.在应用函数中,可以执行以下 ...
pandas.DataFrame的groupby()方法的基本使用
pandas.DataFrame的groupby()方法是一个特别常用和有用的方法.让我们快速掌握groupby()方法的基础使用,从此数据分析又多一法宝. 首先导入package: import p ...
pandas-16 pd.merge()的用法
pandas-16 pd.merge()的用法使用过sql语言的话,一定对join,left join, right join等非常熟悉,在pandas中,merge的作用也非常类似. 如:pd.m ...
Pandas中关于 loc \ iloc 用法的理解
转载至:https://blog.csdn.net/w_weiying/article/details/81411257 loc函数:通过行索引 "Index" 中的具体值来取行数 ...
pandas，pd.ExcelWriter保存结果到已存在的excel文件中
背景:pandas支持将DataFrame数据直接保存到excel中保存的case如下: import pandas as pd with pd.ExcelWriter('a.xls') as ...
pandas.DataFrame——pd数据框的简单认识、存csv文件
接着前天的豆瓣书单信息爬取,这一篇文章看一下利用pandas完成对数据的存储. 回想一下我们当时在最后得到了六个列表:img_urls, titles, ratings, authors, detai ...
Pandas | 09 迭代
Pandas对象之间的基本迭代的行为取决于类型.当迭代一个系列时,它被视为数组式,基本迭代产生这些值.其他数据结构,如:DataFrame和Panel,遵循类似惯例,迭代对象的键. 简而言之,基本迭代 ...

随机推荐

SpringMVC(十四)：SpringMVC 与表单提交（post/put/delete的用法）；form属性设置encrypt='mutilpart/form-data'时，如何正确配置web.xml才能以put方式提交表单
SpringMVC 与表单提交(post/put/delete的用法) 为了迎合Restful风格,提供的接口可能会包含:put.delete提交方式.在springmvc中实现表单以put.dele ...
工具系列 | PHPSTROM 连接Docker容器 && 配置XDEBUG调试
Docker 客户端配置 PHPSTROM 配置选择连接容器日志配置Xdebug 开启Debug模式打断点浏览器访问该项目地址:http://wiot.frp.tinywan.top/
arcpy地理处理工具案例教程-景观形状指数计算
arcpy地理处理工具案例教程-景观形状指数计算商务合作,科技咨询,版权转让:向日葵,135-4855_4328,xiexiaokui#qq.com 使用方法:输入要素类即可,其余参数均默认. 商务 ...
MQTT研究之EMQ：【EMQX使用中的一些问题记录（1）】
issue 1. EMQX的共享订阅 EMQX是一个非常强大的物联网通信消息总线,基于EMQX开展应用开发,要注意很多配置细节问题,这里要说到的就是共享订阅以及和cleanSession之间的关系问题 ...
Golang常见小细节总结（1）
本系列不定期更新,用于记录平常开发过程中出现的一些小问题 Array 类型的值作为函数参数可以理解slice是对array的一个视图,底层还是array所以会被修改通过map的ok来确 ...
【转】京东金融App端链路服务端全链路压测策略
京东金融移动端全链路压测历时三个月,测试和服务端同学经过无数日日夜夜,通宵达旦,终于完成了移动端链路的测试任务.整个测试有部分涉及到公司敏感数据,本文只对策略部分进行论述. 1.系统架构与策略在聊性 ...
SDN实验---Ryu的应用开发（三）流量监控
一:实现流量监控 (一)流量监控原理其中控制器向交换机周期下发获取统计消息,请求交换机消息------是主动下发过程流速公式:是(t1时刻的流量-t0时刻的流量)/(t1-t0) 剩余带宽公式:链 ...
在 Windows 中配置Maven
访问http://maven.apache.org/ 点击左侧的导航栏,Download 跳转到下载maven的页面,往下滚动,看到 Files 处,选择apache-maven-3.3.9-bin- ...
Python原生调试工具pdb实践小结
使用python -m pdb xxx.py进入单步调试模式,默认会在脚本的第一行可执行命令处停止.此时,通过 b function设置之后的函数断点会提示出错,从出错异常栈中可以看出,pdb是将fu ...
Docker使用 - 容器
查看容器命令:docker ps [options] options有: -a:查看所有容器,包含不在运行中的(不带-a参数,是只显示运行中的容器) -q:只显示容器ID -s:多加一列来显示总 ...

pandas-09 pd.groupby()的用法

pandas-09 pd.groupby()的用法

pandas-09 pd.groupby()的用法的更多相关文章

随机推荐

热门专题