pandas_分类与聚合

# 分组与聚合

import pandas as pd

import numpy as np

# 设置列对齐

pd.set_option("display.unicode.ambiguous_as_wide",True)

pd.set_option("display.unicode.east_asian_width",True)

# 读取工号姓名时段交易额，使用默认索引

dataframe = pd.read_excel(r'C:\Users\lenovo\Desktop\总结\Python\超市营业额.xlsx',

                          usecols = ['工号','姓名','时段','交易额','柜台'])

# 对 5 的余数进行分组

dataframe.groupby(by = lambda num:num % 5)['交易额'].sum()

'''

0    4530

1    5000

2    1980

3    3120

4    2780

Name: 交易额, dtype: int64

'''

# 查看索引为 7 15 的交易额

dataframe.groupby(by = {7:'索引为7的行',15:'索引为15的行'})['交易额'].sum()

'''

索引为15的行    830

索引为7的行     600

Name: 交易额, dtype: int64

'''

# 查看不同时段的交易总额

dataframe.groupby(by = '时段')['交易额'].sum()

'''

时段

14:00-21:00    8300

9:00-14:00     9110

Name: 交易额, dtype: int64

'''

# 各柜台的销售总额

dataframe.groupby(by = '柜台')['交易额'].sum()

'''

柜台

化妆品      7900

日用品      2600

蔬菜水果    2960

食品        3950

Name: 交易额, dtype: int64

'''

# 查看每个人在每个时段购买的次数

count = dataframe.groupby(by = '姓名')['时段'].count()

'''

姓名

周七    2

张三    4

李四    3

王五    3

赵六    2

钱八    3

Name: 时段, dtype: int64

'''

#

count.name = '交易人和次数'

'''

'''

# 每个人的交易额平均值并排序

dataframe.groupby(by = '姓名')['交易额'].mean().round(2).sort_values()

'''

姓名

周七     590.00

钱八     756.67

王五     876.67

赵六    1075.00

张三    1300.00

李四    1326.67

Name: 交易额, dtype: float64

'''

# 每个人的交易额，apply(int) 转换为整数

dataframe.groupby(by = '姓名').sum()['交易额'].apply(int)

'''

姓名

周七    1180

张三    5200

李四    3980

王五    2630

赵六    2150

钱八    2270

Name: 交易额, dtype: int64

'''

# 每一个员工交易额的中值

data = dataframe.groupby(by = '姓名').median()

'''

      工号  交易额

姓名

周七  1005     590

张三  1001    1300

李四  1002    1500

王五  1003     830

赵六  1004    1075

钱八  1006     720

'''

data['交易额']

'''

姓名

周七     590

张三    1300

李四    1500

王五     830

赵六    1075

钱八     720

Name: 交易额, dtype: int64

'''

# 查看交易额对应的排名

data['排名'] = data['交易额'].rank(ascending = False)

data[['交易额','排名']]

'''

      交易额  排名

姓名

周七     590   6.0

张三    1300   2.0

李四    1500   1.0

王五     830   4.0

赵六    1075   3.0

钱八     720   5.0

'''

# 每个人不同时段的交易额

dataframe.groupby(by = ['姓名','时段'])['交易额'].sum()

'''

姓名  时段

周七  9:00-14:00     1180

张三  14:00-21:00     600

      9:00-14:00     4600

李四  14:00-21:00    3300

      9:00-14:00      680

王五  14:00-21:00     830

      9:00-14:00     1800

赵六  14:00-21:00    2150

钱八  14:00-21:00    1420

      9:00-14:00      850

Name: 交易额, dtype: int64

'''

# 设置各时段累计

dataframe.groupby(by = ['姓名'])['时段','交易额'].aggregate({'交易额':np.sum,'时段':lambda x:'各时段累计'})

'''

      交易额        时段

姓名

周七    1180  各时段累计

张三    5200  各时段累计

李四    3980  各时段累计

王五    2630  各时段累计

赵六    2150  各时段累计

钱八    2270  各时段累计

'''

# 对指定列进行聚合,查看最大,最小,和,平均值,中值

dataframe.groupby(by = '姓名').agg(['max','min','sum','mean','median'])

'''

      工号                          交易额

       max   min   sum  mean median    max   min   sum         mean median

姓名

周七  1005  1005  2010  1005   1005    600   580  1180   590.000000    590

张三  1001  1001  4004  1001   1001   2000   600  5200  1300.000000   1300

李四  1002  1002  3006  1002   1002   1800   680  3980  1326.666667   1500

王五  1003  1003  3009  1003   1003   1000   800  2630   876.666667    830

赵六  1004  1004  2008  1004   1004   1100  1050  2150  1075.000000   1075

钱八  1006  1006  3018  1006   1006    850   700  2270   756.666667    720

'''

# 查看部分聚合后的结果

dataframe.groupby(by = '姓名').agg(['max','min','sum','mean','median'])['交易额']

'''

       max   min   sum         mean  median

姓名

周七   600   580  1180   590.000000     590

张三  2000   600  5200  1300.000000    1300

李四  1800   680  3980  1326.666667    1500

王五  1000   800  2630   876.666667     830

赵六  1100  1050  2150  1075.000000    1075

钱八   850   700  2270   756.666667     720

'''

2020-05-07

pandas_分类与聚合的更多相关文章

Pandas_分组与聚合
# 分组统计是数据分析中的重要环节: # 1-数据分组:GroupBy的原理和使用方法: # 2-聚合运算:学会分组数据的聚合运算方法和函数使用: 类似于 SQL思想 # 3-分组运算:重点 appl ...
python基础全部知识点整理,超级全(20万字+)
目录 Python编程语言简介 https://www.cnblogs.com/hany-postq473111315/p/12256134.html Python环境搭建及中文编码 https:// ...
巩固复习(Hany驿站原创)_python的礼物
Python编程语言简介 https://www.cnblogs.com/hany-postq473111315/p/12256134.html Python环境搭建及中文编码 https://www ...
DDD 领域驱动设计-商品建模之路
最近在做电商业务中,有关商品业务改版的一些东西,后端的架构设计采用现在很流行的微服务,有关微服务的简单概念: 微服务是一种架构风格,一个大型复杂软件应用由一个或多个微服务组成.系统中的各个微服务可被独 ...
aggregations 详解1（概述）
aggregation分类 aggregations —— 聚合,提供了一种基于查询条件来对数据进行分桶.计算的方法.有点类似于 SQL 中的 group by 再加一些函数方法的操作. 聚合可以嵌套 ...
the assignment of reading paper
在 IEEE 上找到Increasing Dependability of Component-based Software Systems by Online Failure Prediction, ...
Java基础知识二次学习--第三章面向对象
第三章面向对象时间:2017年4月24日17:51:37~2017年4月25日13:52:34 章节:03章_01节 03章_02节视频长度:30:11 + 21:44 内容:面向对象设计思 ...
28款GitHub最流行的开源机器学习项目
现在机器学习逐渐成为行业热门,经过二十几年的发展,机器学习目前也有了十分广泛的应用,如:数据挖掘.计算机视觉.自然语言处理.生物特征识别.搜索引擎.医学诊断.DNA序列测序.语音和手写识别.战略游戏和 ...
python 全栈开发，Day88(csrf_exempt,ES6 快速入门,Vue)
BBS项目内容回顾 1. 登陆页面 1. 验证码 1. PIL(Pillow) 2. io 2. ORM 1. 增删改查 3. AJAX $.ajax({ url: '', type: '', dat ...

随机推荐

前端走进机器学习生态，在 Node.js 中使用 Python
这次给大家带来一个好东西,它的主要用途就是能让大家在 Node.js 中使用 Python 的接口和函数.可能你看到这里会好奇,会疑惑,会不解,我 Node.js 大法那么好,干嘛要用 Python ...
聊聊Java中的异常及处理
前言在编程中异常报错是不可避免的.特别是在学习某个语言初期,看到异常报错就抓耳挠腮,常常开玩笑说编程1分钟,改bug1小时.今天就让我们来看看什么是异常和怎么合理的处理异常吧! 异常与error介绍 ...
【秒懂Java】【02_搭建开发环境】01_Java开发必备
这篇文章主要讲解:要想使用Java来开发软件,需要做哪些准备工作? 配置电脑作为一名开发人员,对文件的类型.大小等信息是比较敏感的,所以建议你的电脑做2个配置: 显示文件扩展名文件扩展名(File ...
（私人收藏）精美PPT模板
精美PPT模板 https://pan.baidu.com/s/1vsRnX5h7t3MZ7qdrFvuI1wsucr
C#数据结构与算法系列（二十一）：希尔排序算法（ShellSort）
1.介绍希尔排序是希尔(Donald Shell)于1959年提出的一种排序算法.希尔排序也是一种插入排序,它是简单插入排序经过改进之后的一个更高效的版本,也称为缩小增量排序. 2.基本思想希尔排 ...
css3 pointer-events（阻止hover、active、onclick等触发事件）
pointer-events CSS 属性指定在什么情况下 (如果有) 某个特定的图形元素可以成为鼠标事件的 target. /* Keyword values */ pointer-events: ...
Jmeter系列（38）- 详解性能监控工具 nmon
如果你想从头学习Jmeter,可以看看这个系列的文章哦 https://www.cnblogs.com/poloyy/category/1746599.html 前言做性能测试,服务器监控是至关重要 ...
状压DP之排列perm
题目 [SCOI2007]排列给一个数字串s和正整数d, 统计s有多少种不同的排列能被d整除(可以有前导0).例如123434有90种排列能被2整除,其中末位为2的有30种,末位为4的有60种. 输 ...
mac篇---iterm2的基本常用命令
标签新建标签:command + t 关闭标签:command + w 切换标签:command + 数字 command + 左右方向键切换全屏:command + enter 查找:comma ...
springBoot整合redis(作缓存)
springBoot整合Redis 1,配置Redis配置类 package org.redislearn.configuration; import java.lang.reflect.Method ...

pandas_分类与聚合

pandas_分类与聚合的更多相关文章

随机推荐

热门专题