pandas_重采样多索引标准差协方差

# 重采样 多索引 标准差 协方差

import pandas as pd

import numpy as np

import copy

# 设置列对齐

pd.set_option("display.unicode.ambiguous_as_wide",True)

pd.set_option("display.unicode.east_asian_width",True)

data = pd.read_excel(r'C:\Users\lenovo\Desktop\总结\Python\超市营业额.xlsx')

# 将日期设置为 python 中的日期类型

data.日期 = pd.to_datetime(data.日期)

'''

   工号  姓名                          日期         时段  交易额    柜台

0  1001  张三 1970-01-01 00:00:00.020190301   9:00-14:00    2000  化妆品

1  1002  李四 1970-01-01 00:00:00.020190301  14:00-21:00    1800  化妆品

2  1003  王五 1970-01-01 00:00:00.020190301   9:00-14:00     800    食品

'''

# 每七天营业的总额

data.resample('7D',on = '日期').sum()['交易额']

'''

日期

1970-01-01    17410

Freq: 7D, Name: 交易额, dtype: int64

'''

# 每七天营业总额

data.resample('7D',on = '日期',label = 'right').sum()['交易额']

'''

日期

1970-01-08    17410

Freq: 7D, Name: 交易额, dtype: int64

'''

# 每七天营业额的平均值

func = lambda item:round(np.sum(item)/len(item),2)

data.resample('7D',on = '日期',label = 'right').apply(func)['交易额']

'''

日期

1970-01-08    1024.12

Freq: 7D, Name: 交易额, dtype: float64

'''

# 每七天营业额的平均值

func = lambda num:round(num,2)

data.resample('7D',on = '日期',label = 'right').mean().apply(func)['交易额']

# 1024.12

# 删除工号这一列

data.drop('工号',axis = 1,inplace = True)

data[:2]

'''

   姓名                          日期         时段  交易额    柜台

0  张三 1970-01-01 00:00:00.020190301   9:00-14:00    2000  化妆品

1  李四 1970-01-01 00:00:00.020190301  14:00-21:00    1800  化妆品

'''

# 按照姓名和柜台进行分组汇总

data = data.groupby(by = ['姓名','柜台']).sum()[:3]

'''

               交易额

姓名 柜台

周七 日用品      1180

张三 化妆品      4600

     蔬菜水果     600

'''

# 查看张三的汇总数据

data.loc['张三',:]

'''

          交易额

柜台

化妆品      4600

蔬菜水果     600

'''

# 查看张三在蔬菜水果的交易数据

data.loc['张三','蔬菜水果']

'''

交易额    600

Name: (张三, 蔬菜水果), dtype: int64

'''

# 多索引

# 重新读取，使用第二列和第六列作为索引，排在前面

data = pd.read_excel(r'C:\Users\lenovo\Desktop\总结\Python\超市营业额.xlsx',index_col = [1,5])

data[:5]

'''

             工号      日期         时段  交易额

姓名 柜台

张三 化妆品  1001  20190301   9:00-14:00    2000

李四 化妆品  1002  20190301  14:00-21:00    1800

王五 食品    1003  20190301   9:00-14:00     800

赵六 食品    1004  20190301  14:00-21:00    1100

周七 日用品  1005  20190301   9:00-14:00     600

'''

# 丢弃工号列

data.drop('工号',axis = 1,inplace = True)

data[:5]

'''

             日期         时段  交易额

姓名 柜台

张三 化妆品  20190301   9:00-14:00    2000

李四 化妆品  20190301  14:00-21:00    1800

王五 食品    20190301   9:00-14:00     800

赵六 食品    20190301  14:00-21:00    1100

周七 日用品  20190301   9:00-14:00     600

'''

# 按照柜台进行排序

dff = data.sort_index(level = '柜台',axis = 0)

dff[:5]

'''

             工号      日期         时段  交易额

姓名 柜台

张三 化妆品  1001  20190301   9:00-14:00    2000

     化妆品  1001  20190302   9:00-14:00    1300

     化妆品  1001  20190303   9:00-14:00    1300

李四 化妆品  1002  20190301  14:00-21:00    1800

     化妆品  1002  20190302  14:00-21:00    1500

'''

# 按照姓名进行排序

dff = data.sort_index(level = '姓名',axis = 0)

dff[:5]

'''

             工号      日期        时段  交易额

姓名 柜台

周七 日用品  1005  20190301  9:00-14:00     600

     日用品  1005  20190302  9:00-14:00     580

张三 化妆品  1001  20190301  9:00-14:00    2000

     化妆品  1001  20190302  9:00-14:00    1300

     化妆品  1001  20190303  9:00-14:00    1300

'''

# 按照柜台进行分组求和

dff = data.groupby(level = '柜台').sum()['交易额']

'''

柜台

化妆品      7900

日用品      2600

蔬菜水果    2960

食品        3950

Name: 交易额, dtype: int64

'''

#标准差

data = pd.DataFrame({'A':[3,3,3,3,3],'B':[1,2,3,4,5],

                     'C':[-5,-4,1,4,5],'D':[-45,15,63,40,50]

                     })

'''

   A  B  C   D

0  3  1 -5 -45

1  3  2 -4  15

2  3  3  1  63

3  3  4  4  40

4  3  5  5  50

'''

# 平均值

data.mean()

'''

A     3.0

B     3.0

C     0.2

D    24.6

dtype: float64

'''

# 标准差

data.std()

'''

A     0.000000

B     1.581139

C     4.549725

D    42.700117

dtype: float64

'''

# 标准差的平方

data.std()**2

'''

A       0.0

B       2.5

C      20.7

D    1823.3

dtype: float64

'''

# 协方差

data.cov()

'''

     A      B       C        D

A  0.0   0.00    0.00     0.00

B  0.0   2.50    7.00    53.75

C  0.0   7.00   20.70   153.35

D  0.0  53.75  153.35  1823.30

'''

# 指定索引为 姓名，日期，时段，柜台，交易额

data = pd.read_excel(r'C:\Users\lenovo\Desktop\总结\Python\超市营业额.xlsx',

                     usecols = ['姓名','日期','时段','柜台','交易额'])

# 删除缺失值和重复值,inplace = True 直接丢弃

data.dropna(inplace = True)

data.drop_duplicates(inplace = True)

# 处理异常值

data.loc[data.交易额 < 200,'交易额'] = 200

data.loc[data.交易额 > 3000,'交易额'] = 3000

# 使用交叉表得到不同员工在不同柜台的交易额平均值

dff = pd.crosstab(data.姓名,data.柜台,data.交易额,aggfunc = 'mean')

dff[:5]

'''

柜台       化妆品  日用品  蔬菜水果    食品

姓名

周七          NaN   590.0       NaN     NaN

张三  1533.333333     NaN     600.0     NaN

李四  1650.000000     NaN     680.0     NaN

王五          NaN     NaN     830.0   900.0

赵六          NaN     NaN       NaN  1075.0

'''

# 查看数据的标准差

dff.std()

'''

柜台

化妆品       82.495791

日用品       84.852814

蔬菜水果    120.277457

食品        123.743687

dtype: float64

'''

# 协方差

dff.cov()

'''

柜台           化妆品  日用品      蔬菜水果     食品

柜台

化妆品    6805.555556     NaN   4666.666667      NaN

日用品            NaN  7200.0           NaN      NaN

蔬菜水果  4666.666667     NaN  14466.666667      NaN

食品              NaN     NaN           NaN  15312.5

'''

2020-05-07

pandas_重采样多索引标准差协方差的更多相关文章

python基础全部知识点整理,超级全(20万字+)
目录 Python编程语言简介 https://www.cnblogs.com/hany-postq473111315/p/12256134.html Python环境搭建及中文编码 https:// ...
巩固复习(Hany驿站原创)_python的礼物
Python编程语言简介 https://www.cnblogs.com/hany-postq473111315/p/12256134.html Python环境搭建及中文编码 https://www ...
pandas第三方库
# 一维数组与常用操作 import pandas as pd # 设置输出结果列对齐 pd.set_option('display.unicode.ambiguous_as_wide',True) ...
一步步教你轻松学主成分分析PCA降维算法
一步步教你轻松学主成分分析PCA降维算法 (白宁超 2018年10月22日10:14:18) 摘要:主成分分析(英语:Principal components analysis,PCA)是一种分析.简 ...
opencv学习之路（38）、Mat像素统计基础——均值，标准差，协方差；特征值，特征向量
本文部分内容转自 https://www.cnblogs.com/chaosimple/p/3182157.html 一.统计学概念二.为什么需要协方差三.协方差矩阵注:上述协方差矩阵还需要除以 ...
ISLR系列：(3)重采样方法 Cross-Validation & Bootstrap
Resampling Methods 此博文是 An Introduction to Statistical Learning with Applications in R 的系列读书笔记,作为本人的 ...
pandas_学习的时候总会忘了的知识点
对Series 对象使用匿名函数使用 pipe 函数对 Series 对象使用匿名函数 pd.Series(range(5)).pipe(lambda x,y,z :(x**y)%z,2,5) p ...
Cesium原理篇：3最长的一帧之地形(4：重采样)
地形部分的原理介绍的差不多了,但之前还有一个刻意忽略的地方,就是地形的重采样.通俗的讲,如果当前Tile没有地形数据的话,则会从他父类的地形数据中取它所对应的四分之一的地形数据.打个比方 ...
matlab 之cov 协方差
COV 1.cov(x) 如果x为向量,返回x的方差计算方法为: S为方差. 2.cov(X) 如果X为矩阵,把矩阵X的行作为观察值,把列作为变量,返回X的协方差矩阵: diag(cov(X))是每 ...

随机推荐

ORA-39257: Data cannot be remapped for more than 10 columns.
ORA-39257: Data cannot be remapped for more than 10 columns. 前言还是脱敏数据相关的事情. 使用expdp的remap_data参数对指定 ...
CentOS7下普通账号通过systemctl管理服务需要输入root密码问题
问题描述: 使用普通账号test通过systemctl启动系统服务提示需要输入root密码: 解决方案: 根据上面提示得知权限由polkit进行管理,对应的是org.freedesktop.syste ...
Netty 源码解析（八）: 回到 Channel 的 register 操作
原创申明:本文由公众号[猿灯塔]原创,转载请说明出处标注今天是猿灯塔“365篇原创计划”第八篇. 接下来的时间灯塔君持续更新Netty系列一共九篇 Netty 源码解析(一): 开始 Netty 源 ...
HotSpot项目结构
之前已经介绍了在Ubuntu 16.04上编译OpenJDK8的源代码和调试HotSpot源代码.这一章将介绍HotSpot项目的目录结构. HotSpot目录下主要由agent.make.src和t ...
Web前端MVC框架的意义分析
前言: Web前端开发是Web技术发展中的一个重要组成部分,在传统的前端开发中由于外界因素的影响导致其开发形式呈现出简单化的特点,即以页面为主体来展示界面中的信息.然而随着科学技术的不断进步,Web前 ...
HTML5（二）音频视频画布
HTML5 Audio(音频) 定义和用法 <audio src="someaudio.wav" controls="controls"> 您的浏览 ...
【区间DP】低价回文
[区间DP]低价回文标签(空格分隔): 区间DP 回文词 [题目描述] 追踪每头奶牛的去向是一件棘手的任务,为此农夫约翰安装了一套自动系统.他在每头牛身上安装了一个电子身份标签,当奶牛通过扫描器的时 ...
Azure Web App (一)发布你的Net Core Web 项目
一,引言今天我们看一下Azure上的一个服务-----Web 应用,我们都知道云计算的三大模式:Iaas(基础设施即服务),Paas(平台即服务),Saas(软件即服务). Iass,其实就是虚拟主 ...
Java面向对象详解-下
一. static static:静态的,可以用来修饰属性.方法.代码块(或初始化块).内部类 static修饰属性(类变量): 由类创建的所有的对象,都共用这一个属性当其中一个对象对此属性进行修改 ...
Python之爬虫（二十六） Scrapy登录知乎
因为现在很多网站为了限制爬虫,设置了为只有登录才能看更多的内容,不登录只能看到部分内容,这也是一种反爬虫的手段,所以这个文章通过模拟登录知乎来作为例子,演示如何通过scrapy登录知乎在通过scra ...

pandas_重采样多索引标准差协方差

pandas_重采样多索引标准差协方差的更多相关文章

随机推荐

热门专题