Pandas 常见操作详解
Pandas 常见操作详解
很多人有误解,总以为Pandas跟熊猫有点关系,跟gui叔创建Python一样觉得Pandas是某某奇葩程序员喜欢熊猫就以此命名,简单介绍一下,Pandas的命名来自于面板数据这个概念,即Panel datas ,说起面板我想很多人脑海里第一印象会是宝塔,这里对面板数据不做过多介绍,有兴趣的可以自行百度。 Pandas的功能有多强大不需要我过多解释,有人拿Excel和它对比,两者很显然不在同一水平。当然,对Python一窍不通的初学者可能觉得Pandas一点都不友好,Pandas其实并不需要太多Python基础,但是很多语法有类似的地方。
版本的选择,其实2.7版本和3.x版本个人觉得差距并不大,如果非要做一个选择,我是这样推荐,我觉得如果你是在校学生,我建议3.x版本学起吧,2.7停止更新,而且不久就要停止技术支持了,要学就学有未来的嘛。如果是马上找工作,或者马上要进入工作环境得的同学,我更建议使用2.7版本,以为毕竟现在还是2.7版本的天下,大多数程序都是用2.7写的。但是学到最后,你会发现两者之间语法差距并不大,很容易可以驾驭两个版本。废话不多说了,进入主题。
一、安装模块
具体内容进入这篇博客:https://www.cnblogs.com/weidu/p/9831980.html
二、引入模块
将pandas作为第三方库导入,我们一般为pandas取一个别名叫做pd
import pandas as pd
三、导入数据
df = pd.read_csv(
# 该参数为数据在电脑中的路径,可以不填写
filepath_or_buffer='/Users/Weidu/Desktop/sz000002.csv',
# 该参数代表数据的分隔符,csv文件默认是逗号。其他常见的是'\t'
sep=',',
# 该参数代表跳过数据文件的的第1行不读入
skiprows=1,
# nrows,只读取前n行数据,若不指定,读入全部的数据
nrows=15,
# 将指定列的数据识别为日期格式。若不指定,时间数据将会以字符串形式读入。一开始先不用。
# parse_dates=['交易日期'],
# 将指定列设置为index。若不指定,index默认为0, 1, 2, 3, 4...
# index_col=['交易日期'],
# 读取指定的这几列数据,其他数据不读取。若不指定,读入全部列
usecols=['交易日期', '股票代码', '股票名称', '收盘价', '涨跌幅', '成交量', '新浪概念', 'MACD_金叉死叉'],
# 当某行数据有问题时,报错。设定为False时即不报错,直接跳过该行。当数据比较脏乱的时候用这个。
error_bad_lines=False,
# 将数据中的null识别为空值
na_values='NULL',
)
调整上列参数,使用print函数观察变化 print(df) #2.7版本 print df
注意:
- 使用read_csv导入数据非常方便
- 导入的数据的数据类型是DataFrame。
- 导入数据主要使用read系列函数
- 还有read_table、read_excel、read_json等,他们的参数内容都是大同小异,可以自行搜索查看
四、查看数据常用操作
print(df.shape) # 输出dataframe有多少行、多少列。
print(df.shape[0]) # 取行数量,相应的列数量就是df.shape[1]
print(df.columns) # 顺序输出每一列的名字,演示如何for语句遍历。
print(df.index) # 顺序输出每一行的名字,可以for语句遍历。
print(df.dtypes) # 数据每一列的类型不一样,比如数字、字符串、日期等。该方法输出每一列变量类型
print(df.head(3)) # 看前3行的数据,默认是5。与自然语言很接近
print(df.tail(3)) # 看最后3行的数据,默认是5。
print(df.sample(n=3)) # 随机抽取3行,想要去固定比例的话,可以用frac参数
print(df.describe()) # 非常方便的函数,对每一列数据有直观感受;只会对数字类型的列有效
五、对print出的数据格式进行修正
pd.set_option('expand_frame_repr', False) # 当列太多时不换行
pd.set_option('max_colwidth', 8) # 设定每一列的最大宽度,恢复原设置的方法,pd.reset_option('max_colwidth')
更多设置请见http://pandas.pydata.org/pandas-docs/stable/options.html
六、如何选取指定的行、列
print(df['股票代码']) # 根据列名称来选取,读取的数据是Series类型
print(df[['股票代码', '收盘价']]) # 同时选取多列,需要两个括号,读取的数据是DataFrame类型
print(df[[0, 1, 2]]) # 也可以通过列的position来选取
七、loc操作:通过label(columns和index的名字)来读取数据
print(df.loc['12/12/2016']) # 选取指定的某一行,读取的数据是Series类型
print(df.loc['13/12/2016': '06/12/2016']) # 选取在此范围内的多行,和在list中slice操作类似,读取的数据是DataFrame类型
print(df.loc[:, '股票代码':'收盘价']) # 选取在此范围内的多列,读取的数据是DataFrame类型
print(df.loc['13/12/2016': '06/12/2016', '股票代码':'收盘价']) # 读取指定的多行、多列。逗号之前是行的范围,逗号之后是列的范围。读取的数据是DataFrame类型
print(df.loc[:, :]) # 读取所有行、所有列,读取的数据是DataFrame类型
print(df.at['12/12/2016', '股票代码']) # 使用at读取指定的某个元素。loc也行,但是at更高效。
八、iloc操作:通过position来读取数据
print(df.iloc[0]) # 以index选取某一行,读取的数据是Series类型
print(df.iloc[1:3]) # 选取在此范围内的多行,读取的数据是DataFrame类型
print(df.iloc[:, 1:3]) # 选取在此范围内的多列,读取的数据是DataFrame类型
print(df.iloc[1:3, 1:3]) # 读取指定的多行、多列,读取的数据是DataFrame类型
print(df.iloc[:, :]) # 读取所有行、所有列,读取的数据是DataFrame类型
print(df.iat[1, 1]) # 使用iat读取指定的某个元素。使用iloc也行,但是iat更高效。
九、列操作
行列加减乘除
print(df['股票名称'] + '_地产') # 字符串列可以直接加上字符串,对整列进行操作
print(df['收盘价'] * 100) # 数字列直接加上或者乘以数字,对整列进行操作。
print(df['收盘价'] * df['成交量']) # 两列之间可以直接操作。收盘价*成交量计算出的是什么?
新增一列
df['股票名称+行业'] = df['股票名称'] + '_地产'
十、统计函数
print(df['收盘价'].mean()) # 求一整列的均值,返回一个数。会自动排除空值。
print(df[['收盘价', '成交量']].mean()) # 求两列的均值,返回两个数,Series
print(df[['收盘价', '成交量']])
print(df[['收盘价', '成交量']].mean(axis=1)) # 求两列的均值,返回DataFrame。axis=0或者1要搞清楚。
#axis=1,代表对整几列进行操作。axis=0(默认)代表对几行进行操作。实际中弄混很正常,到时候试一下就知道了。
print(df['收盘价'].max()) # 最大值
print(df['收盘价'].min()) # 最小值
print(df['收盘价'].std()) # 标准差
print(df['收盘价'].count()) # 非空的数据的数量
print(df['收盘价'].median()) # 中位数
print(df['收盘价'].quantile(0.25)) # 25%分位数
还有其他的函数计算其他的指标,在实际使用中遇到可以自己搜索
十一、shift类函数、删除列的方式
df['昨天收盘价'] = df['收盘价'].shift(-1) # 读取上一行的数据,若参数设定为3,就是读取上三行的数据;若参数设定为-1,就是读取下一行的数据;
print(df[['收盘价', '昨天收盘价']])
del df['昨天收盘价'] # 删除某一列的方法 df['涨跌'] = df['收盘价'].diff(-1) # 求本行数据和上一行数据相减得到的值
print(df[['收盘价', '涨跌']])
df.drop(['涨跌'], axis=1, inplace=True) # 删除某一列的另外一种方式,inplace参数指是否替代原来的df
print(df)
df['涨跌幅_计算'] = df['收盘价'].pct_change(-1) # 类似于diff,但是求的是两个数直接的比例,相当于求涨跌幅
十二、cum(cumulative)类函数
df['成交量_cum'] = df['成交量'].cumsum() # 该列的累加值
print(df[['成交量', '成交量_cum']])
print((df['涨跌幅'] + 1.0).cumprod()) # 该列的累乘值,此处计算的就是资金曲线,假设初始1元钱。
十三、其他列函数
df['收盘价_排名'] = df['收盘价'].rank(ascending=True, pct=False) # 输出排名。ascending参数代表是顺序还是逆序。pct参数代表输出的是排名还是排名比例
print(df[['收盘价', '收盘价_排名']])
del df['收盘价_排名']
print(df['股票代码'].value_counts()) # 计数。统计该列中每个元素出现的次数。返回的数据是Series
十四、筛选操作,根据指定的条件,筛选出相关拿数据
print(df['股票代码'] == 'sh000002') # 判断股票代码是否等于sz000002
print(df[df['股票代码'] == 'sz000002']) # 将判断为True的输出:选取股票代码等于sz000002的行
print(df[df['股票代码'].isin(['sz000002', 'sz000003 ', 'sz000004'])]) # 选取股票代码等于sz000002的行
print(df[df['收盘价'] >= 24.0]) # 选取收盘价大于24的行
print(df[(df.index >= '03/12/2016') & (df.index <= '06/12/2016')]) # 两个条件,或者的话就是|
十五、缺失值处理:原始数据中存在缺失值,如何处理?
删除缺失值
print(df.dropna(how='any')) # 将带有空值的行删除。how='any'意味着,该行中只要有一个空值,就会删除,可以改成all。
print(df.dropna(subset=['MACD_金叉死叉', '涨跌幅'], how='all')) # subset参数指定在特定的列中判断空值。
#all代表全部为空,才会删除该行;any只要一个为空,就删除该行。
补全缺失值
print(df.fillna(value='没有金叉死叉')) # 直接将缺失值赋值为固定的值
df['MACD_金叉死叉'].fillna(value=df['收盘价'], inplace=True) # 直接将缺失值赋值其他列的数据
print(df.fillna(method='ffill')) # 向上寻找最近的一个非空值,以该值来填充缺失的位置,全称forward fill,非常有用
print(df.fillna(method='bfill')) # 向下寻找最近的一个非空值,以该值来填充确实的位置,全称backward fill
找出缺失值
print(df.notnull()) # 判断是否为空值,反向函数为isnull()
print(df[df['MACD_金叉死叉'].notnull()]) # 将'MACD_金叉死叉'列为空的行输出
十六、排序函数
df.reset_index(inplace=True)
print(df.sort_values(by=['交易日期'], ascending=1)) # by参数指定按照什么进行排序,acsending参数指定是顺序还是逆序,1顺序,0逆序
print(df.sort_values(by=['股票名称', '交易日期'], ascending=[1, 1])) # 按照多列进行排序
十七、两个df上下合并操作,append操作
df.reset_index(inplace=True)
df1 = df.iloc[0:10][['交易日期', '股票代码', '收盘价', '涨跌幅']]
print(df1)
df2 = df.iloc[5:15][['交易日期', '股票名称', '收盘价', '涨跌幅']]
print(df2)
print(df1.append(df2)) # append操作,将df1和df2上下拼接起来。注意观察拼接之后的index
df3 = df1.append(df2, ignore_index=True) # ignore_index参数,用户重新确定index
print(df3)
十八、对数据进行去重
df3中有重复的行数,我们如何将重复的行数去除?
#df3中有重复的行数,我们如何将重复的行数去除?
df3.drop_duplicates(
subset=['收盘价', '交易日期'], # subset参数用来指定根据哪类类数据来判断是否重复。若不指定,则用全部列的数据来判断是否重复
keep='first', # 在去除重复值的时候,我们是保留上面一行还是下面一行?first保留上面一行,last保留下面一行,False就是一行都不保留
inplace=True
)
print(df3)
十九、其他常用重要函数
print(df.rename(columns={'MACD_金叉死叉': '金叉死叉', '涨跌幅': '涨幅'})) # rename函数给变量修改名字。使用dict将要修改的名字传给columns参数
print(df.empty) # 判断一个df是不是为空,此处输出不为空
print(pd.DataFrame().empty) # pd.DataFrame()创建一个空的DataFrame,此处输出为空
print(df.T) # 将数据转置,行变成列,很有用
二十、字符串处理
print(df['股票代码'])
print('sz000002'[:2])
print(df['股票代码'].str[:2])
print(df['股票代码'].str.upper()) # 加上str之后可以使用常见的字符串函数对整列进行操作
print(df['股票代码'].str.lower())
print(df['股票代码'].str.len()) # 计算字符串的长度,length
df['股票代码'].str.strip() # strip操作,把字符串两边的空格去掉
print(df['股票代码'].str.contains('sh')) # 判断字符串中是否包含某些特定字符
print(df['股票代码'].str.replace('sz', 'sh')) # 进行替换,将sz替换成sh
split操作
print(df['新浪概念'].str.split(';')) # 对字符串进行分割
print(df['新浪概念'].str.split(';').str[:2]) # 分割后取第一个位置
print(df['新浪概念'].str.split(';', expand=True)) # 分割后并且将数据分列
更多字符串函数请见:http://pandas.pydata.org/pandas-docs/stable/text.html#method-summary
二十一、时间处理
导入数据时将index参数注释掉
df['交易日期'] = pd.to_datetime(df['交易日期']) # 将交易日期由字符串改为时间变量
print(df['交易日期'])
print(df.iloc[0]['交易日期'])
print(df.dtypes)
print(pd.to_datetime('1999年01月01日')) # pd.to_datetime函数:将字符串转变为时间变量
print(df.at[0, '交易日期'])
print(df['交易日期'].dt.year) # 输出这个日期的年份。相应的month是月份,day是天数,还有hour, minute, second
print(df['交易日期'].dt.week) # 这一天是一年当中的第几周
print(df['交易日期'].dt.dayofyear) # 这一天是一年当中的第几天
print(df['交易日期'].dt.dayofweek) # 这一天是这一周当中的第几天,0代表星期一
print(df['交易日期'].dt.weekday) # 和上面函数相同,更加常用
print(df['交易日期'].dt.weekday_name) # 和上面函数相同,返回的是星期几的英文,用于报表的制作。
print(df['交易日期'].dt.days_in_month) # 这一天是这一月当中的第几天
print(df['交易日期'].dt.is_month_end) # 这一天是否是该月的开头,是否存在is_month_end?
print(df['交易日期'] + pd.Timedelta(days=1)) # 增加一天,Timedelta用于表示时间差数据
print((df['交易日期'] + pd.Timedelta(days=1)) - df['交易日期']) # 增加一天然后再减去今天的日期
二十二、rolling、expanding操作
#计算'收盘价'这一列的均值
print(df['收盘价'].mean())
#如何得到每一天的最近3天收盘价的均值呢?即如何计算常用的移动平均线?
#使用rolling函数
df['收盘价_3天均值'] = df['收盘价'].rolling(5).mean()
print(df[['收盘价', '收盘价_3天均值']])
#rolling(n)即为取最近n行数据的意思,只计算这n行数据。后面可以接各类计算函数,例如max、min、std等
print(df['收盘价'].rolling(3).max())
print(df['收盘价'].rolling(3).min())
print(df['收盘价'].rolling(3).std())
rolling可以计算每天的最近3天的均值,如果想计算每天的从一开始至今的均值,应该如何计算?
#使用expanding操作
df['收盘价_至今均值'] = df['收盘价'].expanding().mean()
print(df[['收盘价', '收盘价_至今均值']])
expanding即为取从头至今的数据。后面可以接各类计算函数
print(df['收盘价'].expanding().max())
print(df['收盘价'].expanding().min())
print(df['收盘价'].expanding().std())
rolling和expanding简直是为量化领域量身定制的方法,经常会用到。
二十三、输出
print(df)
df.to_csv('output.csv', encoding='gbk', index=False)
结语:以上基本上包含了所有常见函数,还有一些不常用函数没写,如果需要,请到官方文档查询:
http://pandas.pydata.org/pandas-docs/stable/api.html
Pandas 常见操作详解的更多相关文章
- pandas常用操作详解——pandas的去重操作df.duplicated()与df.drop_duplicates()
df.duplicated() 参数详解: subset:检测重复的数据范围.默认为数据集的所有列,可指定特定数据列: keep: 标记哪个重复数据,默认为'first'.1.'first':标记重复 ...
- pandas常用操作详解——info()与descirbe()
概述 df.info():主要介绍数据集各列的数据类型,是否为空值,内存占用情况: df.describe(): 主要介绍数据集各列的数据统计情况(最大值.最小值.标准偏差.分位数等等). df.in ...
- pandas常用操作详解——pd.concat()
concat函数基本介绍: 功能:基于同一轴将多个数据集合并 pd.concat(objs, axis=0, join='outer', join_axes=None, ignore_index=Fa ...
- pandas常用操作详解(复制别人的)——数据透视表操作:pivot_table()
原文链接:https://www.cnblogs.com/Yanjy-OnlyOne/p/11195621.html 一文看懂pandas的透视表pivot_table 一.概述 1.1 什么是透视表 ...
- 使用zookeeper自带的zkCli.sh客户端工具实现对zk的CURD常见操作详解
一.zookeeper自带的 zkCli.sh 客户端工具 1. 应急和测试使用到的一个工具. 还有C# dirver java dirver (驱动) 二.driver的使用方式有两种 zkCl ...
- pandas常用操作详解——.loc与.iloc函数的使用及区别
loc与iloc功能介绍:数据切片.通过索引来提取数据集中相应的行数据or列数据(可以是多行or多列) 总结: 不同:1. loc函数通过调用index名称的具体值来取数据2. iloc函数通过行序号 ...
- pandas常用操作详解——数据运算(一)
表与表之间的数据运算 #构建数据集df1=pd.DataFrame(np.random.random(32).reshape(8,4),columns=list('ABCD')) df2=pd.Dat ...
- MySQL 操作详解
MySQL 操作详解 一.实验简介 本节实验中学习并实践 MySQL 上创建数据库.创建表.查找信息等详细的语法及参数使用方法. 二.创建并使用数据库 1. 创建并选择数据库 使用SHOW语句找出服务 ...
- Python对Excel操作详解
Python对Excel操作详解 文档摘要: 本文档主要介绍如何通过python对office excel进行读写操作,使用了xlrd.xlwt和xlutils模块.另外还演示了如何通过Tcl ...
随机推荐
- centos7安装zabbix server5.0
安装zabbix源 1.rpm -Uvh https://repo.zabbix.com/zabbix/5.0/rhel/7/x86_64/zabbix-release-5.0-1.el7.noarc ...
- Missing Private key解决方案——IOS证书 .cer 以p12文件以及配置方案
一个苹果证书怎么多次使用--导出p12文件 为什么要导出.p12文件 因为苹果规定 .cer证书只能存在于一台机器上,因此 如果另一台电脑想要用的话,需要导出为.p12 file ,安装到另一台没有安 ...
- [OI笔记]NOIP2017前(退役前)模拟赛的总结
好久没写blog了- 在noip2017前的最后几天,也就是在我可能将要AFO的前几天写点东西吧- 记录这最后几个月打的那些大大小小的模拟赛 一些比赛由于不允许公开所以就没有贴链接跟题面了- 2017 ...
- MQTT协议 局域网和广域网 云服务器和虚拟主机、VPS SSH和FTP、SFTP
MQTT协议 MQTT协议就很好的解决了coap存在的问题.MQTT协议是由IBM开发的即时通讯协议,相比来说比较适合物联网场景的通讯协议.MQTT协议采用发布/订阅模式,所有的物联网终端都通过TC ...
- c# 递归 yield关键字的用法
1.yield实现的功能 yield return: 先看下面的代码,通过yield return实现了类似用foreach遍历数组的功能,说明yield return也是用来实现迭代器的功能的. u ...
- 微信小说分销系统设计之使用百度Echarts地图统计功能统计微信粉丝地域分布情况
/** 转载请保留博客园原地址以及版权声明,请勿恶意修改,本博客中的内容均属于技术交流,请勿用于商业用途,谢谢配合 * 作者:杨浩瑞 QQ:1420213383 独立博客:http://www. ...
- 【整理】互联网服务端技术体系:高性能之并发(Java)
分而合之,并行不悖. 综述入口见:"互联网应用服务端的常用技术思想与机制纲要" 引子 并发,就是在同一时间段内有多个任务同时进行着.这些任务或者互不影响互不干扰,或者共同协作来完成 ...
- 算法竞赛入门经典第二版第一章习题-(练习Java和C++语法)
习题1-1 平均数(average) 输入三个整数,输出他们的平均值,保留三位小数 Java: package suanfa; import java.util.Scanner; public cla ...
- 开发规范(二)如何写单元测试 By 阿里
- Sharding jdbc 强制路由策略(HintShardingStrategy)使用记录
背景 随着项目运行时间逐渐增加,数据库中的数据也越来越多,虽然加索引,优化查询,但是数据量太大,还是会影响查询效率,也给数据库增加了负载. 再加上冷数据基本不使用的场景,决定采用分表来处理数据,从而来 ...