破周三,前不着村后不着店的,只好学pandas了,你该这么学,No.9
如果图片无法观看,请移步 https://blog.csdn.net/hihell
周三了,一个星期最难的一天
大中间的,今天还这么热
5月份,36度的高温
天空飘过几个字
屋里学pandas最得劲
Groupy DataFrame with Index Levels and Columns
说白了就是通过index和columns混合分组
例子走起,(不赶紧写例子,都不知道要怎么解释啦)
import pandas as pd
arrays = [['bar', 'bar', 'baz', 'baz', 'foo', 'foo', 'qux', 'qux'],
['one', 'two', 'one', 'two', 'one', 'two', 'one', 'two']]
index = pd.MultiIndex.from_arrays(arrays=arrays,names=['first','second'])
df = pd.DataFrame({'A':[3,1,4,5,9,2,6,1],
'B':[1,1,1,1,2,2,3,3]},index=index)
print(df)
有例子,就有例子展示,对吧
A B
first second
bar one 3 1
two 1 1
baz one 4 1
two 5 1
foo one 9 2
two 2 2
qux one 6 3
two 1 3
接下来,大招展示的环节的
我要按照second的index索引和B列进行分组
代码先行一步,效果稍后就来
grouped = df.groupby([pd.Grouper(level=1),'B']).sum()
print(grouped)
注意看到groupby里面有两个值,一个是pd.Grouper(level=1) 这个为second的index
第二个为B columns
手太抖了,没画好,灵魂画手
主要就是为了让你看明白,分组是怎么计算的哦~
当然,你也可以通过index的名字进行分组
df.groupby([pd.Grouper(level='second'), 'A']).sum()
和上面的效果是一样一样的
甚至,我们可以直接简写成
df.groupby(['second', 'A']).sum()
分组之后的数据可以选择部分,也可以迭代
这个部分,其实我们已经实现过了
再拿出来,重温一下
df = pd.DataFrame({'A':['bar', 'bar', 'foo', 'foo', 'foo', 'foo', 'foo'],
'B':['one', 'two', 'one', 'two', 'one', 'two', 'three'],
'C':[3,1,4,5,9,2,6],
'D':[1,1,1,1,2,2,3]})
print(df)
grouped = df.groupby('A')
for name,group in grouped:
print(name)
print(group)
看到分组的名字分别是bar和foo,熟悉吧,常规操作
迭代的时候,用for in 循环即可
bar
A B C D
0 bar one 3 1
1 bar two 1 1
foo
A B C D
2 foo one 4 1
3 foo two 5 1
4 foo one 9 2
5 foo two 2 2
6 foo three 6 3
如果按照多keys分组,例如groupby(['A','B'])
它会自然而然的形成一个元组name
可以迭代,就可以部分选择,上篇博客有哦!
bars = grouped.get_group('bar') # 通过分组的名字
print(bars)
另一个呢?
df.groupby(['A', 'B']).get_group(('bar', 'one'))
唉,对喽,这么写,就比较对了
难度系数的大了,要来了,聚合函数
首先看一下内置的聚合函数
sum(), mean(), max(), min(), count(), size(), describe()
竟然才这么几个,那是因为我没写全
这个咱们已经操作很多次了
接下来可以看一个高级一些的
可自定义函数,传入agg方法中
我们还是通过刚才的数据进行分析
A B C D
0 bar one 3 1
1 bar two 1 1
2 foo one 4 1
3 foo two 5 1
4 foo one 9 2
5 foo two 2 2
6 foo three 6 3
按照A和B进行分组
A有2个值,B有3个值,所以分组之后形成5组
看清楚,不要眨眼,操作来了
grouped = df.groupby(['A','B'])
print(grouped.agg('mean'))
思路转换,单列求平均值
grouped = df.groupby(['A','B'])
print(grouped['C'].agg('mean'))
继续思路转换,给单列多个聚合函数
print(grouped['C'].agg(['mean','sum']))
很厉害,学到了吧
继续来,不要怕,求多种聚合运算的同时更改列名
print(grouped['C'].agg([('A','mean'),('B','max')]))
不同的列运用不同的聚合函数
print(grouped.agg({'C':['sum','mean'],'D':['min','max']}))
这些都是agg干的,我还可以继续编哦~
groupby中,可以修改成无索引形式
注意核心加了一个参数as_index=False
grouped = df.groupby(['A','B'],as_index=False)
print(grouped.agg({'C':['sum','mean'],'D':['min','max']}))
最后一个操作,agg里面是可以使用自定义的聚合函数
一般,都是这个案例,我呢,当然不能例外啦
grouped = df.groupby('A')
def max_min(group):
return group.max()-group.min()
print(grouped.agg(max_min))
agg(自定义的函数)
这个地方的自定义函数,还支持lambda的哦~
迷糊了吧,迷糊也没事,拿的住手机就行
拍这里,拍这个里
破周三,前不着村后不着店的,只好学pandas了,你该这么学,No.9的更多相关文章
- 风物长宜放眼量,人间正道是沧桑 - 一位北美 IT 技术人破局
引言 我对于本科时光的印象,还停留在那所普通 211 大学的建筑物之间,我坐在大学的时光长廊里,满眼望去,都是经历的过的故事.可毕业后回首,却很少有人能说,自己从来没有迷茫过.迷茫,仿佛就是一团乌云, ...
- 知乎:在卡内基梅隆大学 (Carnegie Mellon University) 就读是怎样一番体验?
转自:http://www.zhihu.com/question/24295398 知乎 Yu Zhang 知乎搜索 首页 话题 发现 消息 调查类问题名校就读体验修改 在卡内基梅隆大学 (Car ...
- 从CVPR 2014看计算机视觉领域的最新热点
编者按:2014年度计算机视觉方向的顶级会议CVPR上月落下帷幕.在这次大会中,微软亚洲研究院共有15篇论文入选.今年的CVPR上有哪些让人眼前一亮的研究,又反映出哪些趋势?来听赴美参加会议的微软亚洲 ...
- 从CVPR 2014看计算机视觉领域的最新热点
2014看计算机视觉领域的最新热点" title="从CVPR 2014看计算机视觉领域的最新热点"> 编者按:2014年度计算机视觉方向的顶级会议CVPR上月落下 ...
- ajax post提交form表单 报400错误 解决方法
昨天晚上做项目遇到了一个奇怪的问题,我用ajax提交一个form表单,后台Java方法用的是一个实体接,但是他根本不进方法体中,直接给我一个400的错误,一开始我以为是我路径的问题(尴尬),结果直接访 ...
- 100+诡异的数据集,20万Eclipse Bug、死囚遗言等
摘要:近日,Robert Seaton整理了100多个最有趣的数据集,其中包括Jeopardy真题,死囚的最后一句话,20万个Eclipse Bug,足球比赛相关,柏拉图式的爱情,太阳系以外的行星,1 ...
- OpenJudge 7627 鸡蛋的硬度
描述 最近XX公司举办了一个奇怪的比赛:鸡蛋硬度之王争霸赛.参赛者是来自世 界各地的母鸡,比赛的内容是看谁下的蛋最硬,更奇怪的是XX公司并不使用什么精密仪器来测量蛋的硬度,他们采用了一种最老土的办法- ...
- 人工智能大数据,公开的海量数据集下载,ImageNet数据集下载,数据挖掘机器学习数据集下载
人工智能大数据,公开的海量数据集下载,ImageNet数据集下载,数据挖掘机器学习数据集下载 ImageNet挑战赛中超越人类的计算机视觉系统微软亚洲研究院视觉计算组基于深度卷积神经网络(CNN)的计 ...
- COJN 0585 800604鸡蛋的硬度
800604鸡蛋的硬度 难度级别:B: 运行时间限制:1000ms: 运行空间限制:51200KB: 代码长度限制:2000000B 试题描述 最近XX公司举办了一个奇怪的比赛:鸡蛋硬度之王争霸赛.参 ...
随机推荐
- [Google Guava] 6-字符串处理:分割,连接,填充
原文链接 译文链接 译者:沈义扬,校对:丁一 连接器[Joiner] 用分隔符把字符串序列连接起来也可能会遇上不必要的麻烦.如果字符串序列中含有null,那连接操作会更难.Fluent风格的Joine ...
- mysql慢查询日志查找与分析
mysql下执行SHOW VARIABLES LIKE '%slow_query_log%' 上图我这是本地的mysql,慢查询没开. slow_query_log :ON和OFF分别表示慢查询有没有 ...
- 我想查看数据库名,输入命令:select name from v$database;为什么会说表和视图不存在
你看一下你连接数据库的用户,需要有DBA权限才能看到这个表.
- 【线性代数】5-3:克莱姆法则,逆和体积(Cramer's Rule,Inverses,and Volumes)
title: [线性代数]5-3:克莱姆法则,逆和体积(Cramer's Rule,Inverses,and Volumes) categories: Mathematic Linear Algebr ...
- 使用zabbix-proxy
事情背景: vt上两个vps,只提供ipv6.(因为便宜嘛).而我的zabbix服务器在腾讯云.它丫的没有ipv6. 那么我没法监控它们了呀... 这咋个行呢? 想办法... 我还有另外的vps 可以 ...
- maven+SSM+junit+jetty+log4j2环境配置的最佳实践
思路大致是 jetty插件 -> junit -> SpringMVC -> Spring -> log4j2 -> Mybatis整合 pom中的依赖跟着思路一批一批的 ...
- GEOS库的编译
下载地址https://trac.osgeo.org/geos/ 选择最新的geos-3.6.2版本,下载 将geos-3.6.2放在VS2012文件夹下,本例是D:\VS2012 打开VS2012开 ...
- jenkins之自动化部署github上maven项目
部署流程:将代码从github上拉取下来,使用maven打包,将打包后的jar通过ssh发送到服务器上,然后构建docker镜像,运行容器. 1.安装插件 如果是第一次使用jenkins,需要检查并确 ...
- CF1208A
CF1208A 题意: 就是把斐波那契数列的+改成异或,求第n项的值. 解法: 又是一个人类智慧题,打表找规律. 可以发现答案在 $ a,b,a⊕b $ 三个数中循环 CODE: #include&l ...
- Yarn 安装 node-sass 依赖导致 Build Fresh Packages 太慢的问题
解决办法: 1. 在 项目目录下新建 .yarnrc 文件 添加以下代码 registry "https://registry.npm.taobao.org" sass_binar ...