pandas_学习的时候总会忘了的知识点

对Series 对象使用匿名函数

使用 pipe 函数对 Series 对象使用 匿名函数

pd.Series(range(5)).pipe(lambda x,y,z :(x**y)%z,2,5)

pd.Series(range(5)).pipe(lambda x:x+3).pipe(lambda x:x*3)

使用 apply 函数对 Series 对象使用 匿名函数

pd.Series(range(5)).apply(lambda x:x+3)

# 查看无偏标准差，使用 sem 函数

pd.Series(range(0,5)).sem()

# 按照日 进行分组查看交易的平均值 -1 表示倒数第一个

# data.groupby(data.日期.str.__getitem__(-1)).mean().apply(round)

# 查看日期尾数为 1 的数据

# data[data.日期.str.endswith('1')][:12]

# 查看日期尾数为 12 的交易数据,slice 为切片 (-2) 表示倒数两个

# data[data.日期.str.slice(-2) == '12']

# 查看日期中月份或天数包含 2  的交易数据

# data[data.日期.str.slice(-5).str.contains('2')][1:9]

# 对姓名和日期进行分组,并进行求和

dff = dataframe.groupby(by = ['姓名','日期'],as_index = False).sum()

# 使用 pivot 进行设置透视表

# 将 dff 的索引，列 设置成透视表形式

dff = dff.pivot(index = '姓名',columns = '日期',values = '交易额')

    index 设置行索引

    columns 设置列索引

    values 对应的值

# 查看第一天的数据

dff.iloc[:,:1]

# 显示前两天每一天的交易总额以及每个人的交易金额

dataframe.pivot_table(values = '交易额',index = '姓名',columns = '日期',aggfunc = 'sum',margins = True).iloc[:,:2]

# 查看每个人每天购买的次数

dataframe.pivot_table(values = '交易额',index = '姓名',columns = '日期',aggfunc = 'count',margins = True)

# 每个人每天去过几次柜台，使用交叉表 crosstab

pd.crosstab(dataframe.姓名,dataframe.柜台)

# 每个人在每个柜台交易额的平均值,金额/天数

pd.crosstab(dataframe.姓名,dataframe.柜台,dataframe.交易额,aggfunc = 'mean').apply(lambda  num:round(num,2) )

# 对 5 的余数进行分组

by 可以为匿名函数，字典，字符串

dataframe.groupby(by = lambda num:num % 5)['交易额'].sum()

dataframe.groupby(by = {7:'索引为7的行',15:'索引为15的行'})['交易额'].sum()

dataframe.groupby(by = '时段')['交易额'].sum()

# sort_values() 进行排序

# 查看交易额对应的排名

data['排名'] = data['交易额'].rank(ascending = False)

# 每个人不同时段的交易额

dataframe.groupby(by = ['姓名','时段'])['交易额'].sum()

# 查看上浮了 50% 之后依旧低于 1500 的交易额,查看 4 条数据

# 对 DataFrame 对象使用 map 匹配函数

dataframe.loc[dataframe.交易额 < 1500,'交易额'] = dataframe[dataframe.交易额 < 1500]['交易额'].map(lambda num:num*1.5)

# 丢弃缺失值之后的行数

len(dataframe.dropna())

# 包含缺失值的行

dataframe[dataframe['交易额'].isnull()]

# 使用整体均值的 80% 填充缺失值

# dataframe.fillna({'交易额':round(dataframe['交易额'].mean() * 0.8)},inplace = True)

# dataframe.iloc[[1,4,16],:]

# 重复值

dataframe[dataframe.duplicated()]

# 丢弃重复行

dataframe = dataframe.drop_duplicates()

# 查看是否有录入错误的工号和姓名

dff = dataframe[['工号','姓名']]

dff.drop_duplicates()

# 使用 diff 对数据进行差分

# 查看员工业绩波动情况(每一天和昨天的数据作比较)

dff = dataframe.groupby(by = '日期').sum()['交易额'].diff()

# 使用交叉表得到每人在各柜台交易额的平均值

data_group = pd.crosstab(data.姓名,data.柜台,data.交易额,aggfunc = 'mean').apply(round)

# 使用 concat 连接两个相同结构的 DataFrame 对象

df3 = pd.concat([df1,df2])

# 合并 merge 、 join

# 按照工号进行合并，随机查看 3 条数据

# 合并 df4 和 df5 两个DataFrame 对象

rows = np.random.randint(0,len(df5),3)

pd.merge(df4,df5).iloc[rows,:]

# 按照工号进行合并，指定其他同名列的后缀

# on 对应索引列名 suffixes 区分两个连接的对象

pd.merge(df1,df2,on = '工号',suffixes = ['_x','_y']).iloc[:,:]

# 两个表都设置工号为索引 set_index，设置两个连接对象的索引

df2.set_index('工号').join(df3.set_index('工号'),lsuffix = '_x',rsuffix = '_y').iloc[:]

# 读取 csv 对象时使用 usecols

# 读取工号姓名时段交易额，使用默认索引

dataframe = pd.read_excel(r'C:\Users\lenovo\Desktop\总结\Python\超市营业额.xlsx',

                          usecols = ['工号','姓名','时段','交易额','柜台'])

# 按照交易额降序和工号升序排序，查看五条数据

dataframe.sort_values(by = ['交易额','工号'],ascending = [False,True])[:5]

# 按工号升序排序

dataframe.sort_values(by = ['工号'])[:5]

# 三分钟重采样，计算均值

data.resample('3H').mean()

# 计算OHLC open,high,low,close

data.resample('5H').ohlc()

# 将日期替换为第二天

data.index = data.index + pd.Timedelta('1D')

# 查看指定日期的年份是否是闰年

pd.Timestamp('').is_leap_year

# 查看所有的交易额信息

dataframe['交易额'].describe()

# 第一个最小交易额的行下标

index = dataframe['交易额'].idxmin()

# 最大交易额的行下标

index = dataframe['交易额'].idxmax()

dataframe.loc[index,'交易额']

#

# 跳过 1 2 4 行，以第一列姓名为索引

dataframe2 = pd.read_excel(r'C:\Users\lenovo\Desktop\总结\Python\超市营业额.xlsx',

                           skiprows = [1,2,4],

                           index_col = 1)

    skiprows 跳过的行

    index_col 指定的列

dataframe.iloc[[0,2,3],:]

# 查看第四行的姓名数据

dataframe.at[3,'姓名']

2020-05-07

pandas_学习的时候总会忘了的知识点的更多相关文章

个人 WPF+EF（DBFirst）简单应用开发习惯及EF学习测试（备忘） -- 2
接上篇:个人 WPF+EF(DBFirst) 简单应用开发习惯及EF学习测试(备忘) -- 1 Step1 在主程序中设置连接数据库从Model类库的 App.Config 把数据库字符串拷贝出来, ...
IOS学习笔记48--一些常见的IOS知识点+面试题
IOS学习笔记48--一些常见的IOS知识点+面试题 1.堆和栈什么区别? 答:管理方式:对于栈来讲,是由编译器自动管理,无需我们手工控制:对于堆来说,释放工作由程序员控制,容易产生memor ...
关于图计算&图学习的基础知识概览：前置知识点学习（Paddle Graph Learning (PGL)）
关于图计算&图学习的基础知识概览:前置知识点学习(Paddle Graph Learning (PGL)) 欢迎fork本项目原始链接:关于图计算&图学习的基础知识概览:前置知识点学习 ...
sqlserver -- 学习笔记（一）自定义函数（学习总结，备忘）
SQL Server自定义函数,以前只在书上看过,没有动手去敲一敲,今天刚好接触到,看了几篇博文学习了下.做好备忘很重要!! (@_@)Y Learn from:http://www.cnblogs. ...
NodeJs学习记录（一）初步学习，杂乱备忘
2016/12/26 星期一 1.在win7下安装了NodeJs 1)进入官网 https://nodejs.org/en/download/,下载对应的安装包,我目前下载的是node-v6.2.0- ...
Python学习(五)：易忘知识点
1.列表比较函数cmp >>> a = [1,2,3,4] >>> b = [1,2,3,4,5] >>> c = [1,2,3,4] >& ...
MySQL的一些操作(学习记录_备忘)
有个问题一直困扰着我,就是在windows下,使用命令行登录mymql时,得cd进mysql的\bin目录下.但我已经将mysql的\bin加入了环境变量,似乎不起作用. mysql 不允许创建表名全 ...
Django框架学习易错和易忘点
一.get在几处的用法 1.获取前端数据 request.POST.get('xxx') #当存在多个值时,默认取列表最后一个元素:所以当存在多个值时,使用getlist 2.获取数据库数据 mode ...
jmeter__编写脚本学习笔记、备忘
web持续添加前言: 1. token就是令牌,比如你授权(登录)一个程序时,他就是个依据,判断你是否已经授权该软件:也叫关联 2. cookie就是写在客户端的一个txt文件,里面包括你登录信息之 ...

随机推荐

安装完kali linux之后要做的10件事——113p.cn
1.添加国内更新源(可能不是最好的) vim /etc/apt/source.list 科技大学# deb http://mirrors.ustc.edu.cn/kali sana main non- ...
web前端达到什么水平，才能找到工作？
前端都需要学什么(可以分为八个阶段)<1>第一阶段: HTML+CSS:HTML进阶. CSS进阶.DIV+CSS布局.HTML+CSS整站开发. JavaScript基础:Js基础教程. ...
C++栈(stack)、队列(queue)、链表(list)的常用函数
C++队列Queue是一种容器适配器,它给予程序员一种先进先出(FIFO)的数据结构.1.back() 返回一个引用,指向最后一个元素2.empty() 如果队列空则返回真3.front() 返回第一 ...
Redis四大模式之主从配置
Redis工作模式主要有单机模式.主从模式(slave).哨兵模式(sentinel).集群模式(cluster)这四种,本文主要讲解一下主从模式的部署方式. 我是windows单机进行的这套搭建操作 ...
UVA - 11300 Spreading the Wealth（数学题）
UVA - 11300 Spreading the Wealth [题目描述] 圆桌旁边坐着n个人,每个人有一定数量的金币,金币的总数能被n整除.每个人可以给他左右相邻的人一些金币,最终使得每个人的金 ...
CSS学习之选择器优先级与属性继承
CSS学习之选择器优先级与属性继承选择器优先级其实选择器是具有优先级的,我们来看下面这一组案例: <!DOCTYPE html> <html lang="en" ...
安装archlinux
arch安装步骤 archlinux官方安装wiki 1.分区and格式化分区 (分区用fdisk,格式化分区用mkfs) 2.挂载分区 (mount命令) 3.安装archlinux ...
数据库01 /Mysql初识、基本指令、数据库密码相关、创建用户及授权
数据库01 /Mysql初识.基本指令.数据库密码相关.创建用户及授权目录数据库01 /Mysql初识.基本指令.数据库密码相关.创建用户及授权 1. 数据库概述 2. 数据库管理系统/DBMS ...
Python之爬虫（七）正则的基本使用
什么是正则表达式正则表达式是对字符串操作的一种逻辑公式,就是事先定义好的一些特定字符.及这些特定字符的组合,组成一个“规则字符”,这个“规则字符” 来表达对字符的一种过滤逻辑. 正则并不是pyth ...
关于Excel去空格问题
做开发,导入导出是一项基本功能,基本每个系统都有. 导入日期字段难免碰到因为空格问题引起的日期格式化Bug 下面分享一项Excel识别空格以及去空格的方法. 一:识别空格技巧(不要相信你的眼睛,有些空 ...

pandas_学习的时候总会忘了的知识点

pandas_学习的时候总会忘了的知识点的更多相关文章

随机推荐

热门专题