Pandas一些小技巧
Pandas有一些不频繁使用容易忘记的小技巧
1、将不同Dataframe写在一个Excel的不同Sheet,或添加到已有Excel的不同Sheet(同名Sheet会覆盖)
from pandas import ExcelWriter #在单个文件中不同df写入对应不同的的工作表
with ExcelWriter('path_to_file.xlsx') as writer:
df1.to_excel(writer, sheet_name='Sheet1')
df2.to_excel(writer, sheet_name='Sheet2') #附加到已有的Excel文件
with ExcelWriter('path_to_file.xlsx', mode='a') as writer:
df.to_excel(writer, sheet_name='Sheet3')
2、建立索引,修改索引,重建索引,删除索引,索引---->列,列---->索引
- 建立索引 列---->索引
import pandas as pd #DataFrame.set_index(keys, drop=True, append=False, inplace=False, verify_integrity=False)
#key:标签或者数组(Series, Index,np.ndarray),复合索引则把标签或数组放在list中
#drop:删除作为新索引的列
#append :将列附加到现有的索引
#inplace :是否修改Dataframe df = pd.DataFrame({'month': [1, 4, 7, 10],
'year': [2012, 2014, 2013, 2014],
'sale': [55, 40, 84, 31]})
#列转索引
df.set_index('month') #多列转复合索引
df.set_index(['year', 'month']) #设置列与另一索引为复合索引
df.set_index([pd.Index([1, 2, 3, 4]), 'year']) #使用Series建立索引
s = pd.Series([1, 2, 3, 4])
df.set_index([s, s**2])
- 重建/删除索引 索引---->列
#原索引转列,重建递增索引
df.reset_index() #删除原索引、重建默认递增索引
df.reset_index(drop=True) #行多索引子索引转列多索引的某一层级的列,默认为最高级,若插入其他等级,col_fill为指定最高级索引,若不存在,则创建
df.reset_index(level='class', col_level=1, col_fill='genus')
- 修改索引
import pandas as pd
import numpy as np #DataFrame.reindex(labels = None,index = None,columns = None,axis = None,method = None,copy = True,level = None,
fill_value = nan,limit = None,tolerance = None)
#reindex相当于对DataFrame的架构(index或者column)筛选或者补充,即如果原df存在相应的
##索引或列,就保留,没有则为NAN,函数有一系列填充NAN的方法(不止固定填充某值,非操作原始数据NAN) index = ['Firefox', 'Chrome', 'Safari', 'IE10', 'Konqueror']
df = pd.DataFrame({
'http_status': [200,200,404,404,301],
'response_time': [0.04, 0.02, 0.07, 0.08, 1.0]},
index=index) #重新索引行
new_index= ['Safari', 'Iceweasel', 'Comodo Dragon', 'IE10','Chrome']
df.reindex(new_index, fill_value='missing') #重新索引列
df.reindex(columns=['http_status', 'user_agent']) #展示对索引中产生的NAN的填充功能
date_index = pd.date_range('1/1/2010', periods=6, freq='D')
df2 = pd.DataFrame({"prices": [100, 101, np.nan, 100, 89, 88]},index=date_index)
date_index2 = pd.date_range('12/29/2009', periods=10, freq='D')
df2.reindex(date_index2)
#第一个有效值以填充之前的NaN值
df2.reindex(date_index2, method='bfill') #.reindex_like
#等价于.reindex(index=other.index, columns=other.columns,...)
3、读取有BOM头的文档(Windows有的软件会在首行添加看不见的BOM头,导致文件处理出错)
import pandas as pd df=pd.read_csv("test.csv",sep="\t",encoding="utf-8-sig",engine="python") #即编码改成有BOM头的即可
4、在Pandas读取csv的时候报 field larger than field limit (131072) 这样的错误
- 从报错上来说,这是说字段大小超过限制了,但是一般来说,我们的字段通常是不会超过限制的,如果超过了,就应该反思数据结构是不是适合csv的格式了,所以除了这个,很有可能是解析的方式出了问题,我遇到过一个例子,通过改变Quote行为解决的
import pandas as pd df = pd.read_csv('test.csv',sep='\t',encoding='utf-8-sig',quoting=3) #quoting:控制引用字符引用行为,QUOTE_MINIMAL (0), QUOTE_ALL (1), QUOTE_NONNUMERIC (2) or QUOTE_NONE (3).
- 但是如果csv的字段就是那么的大,可以使用下述DirtyCode进行拓展限制的处理
import pandas as pd maxInt =pd.io.parsers.sys.maxsize
while True:
try:
pd.io.parsers.csv.field_size_limit(maxInt)
break
except OverflowError:
#这里主要是因为Python的Int的大小是远大于C的,当不满足的时候,除以2
maxInt = maxInt>>1
5、未完待续... ...
Pandas一些小技巧的更多相关文章
- js几个小技巧和坑
蝴蝶书看了,也知道充满了毒瘤和糟粕,但该用还是得用. 实际写了几天,小技巧记录下来.都是在py里有直接答案,不会遇到的问题,没想到js里这么费事. 还是要多读<ES6标准入门> 1判断ob ...
- pandas常用小trick(持续更新)
记录一下pandas常用的小技巧,时间长了干别的去了会忘记,记录一下: 1. 在处理数据过程中涉及到label和null的处理方法 # 方法一 df['height'][df.height < ...
- 今天整理了几个在使用python进行数据分析的常用小技巧、命令。
提高Python数据分析速度的八个小技巧 01 使用Pandas Profiling预览数据 这个神器我们在之前的文章中就详细讲过,使用Pandas Profiling可以在进行数据分析之前对数据进行 ...
- 8条github使用小技巧
1 简介 作为全球最大的开源及私有软件项目托管社区平台,github可以显著地帮助从事编程相关工作的人员提升自己的技术水平,也是费老师我日常最常浏览学习的技术类网站. github为了使得其使用更加便 ...
- 前端网络、JavaScript优化以及开发小技巧
一.网络优化 YSlow有23条规则,中文可以参考这里.这几十条规则最主要是在做消除或减少不必要的网络延迟,将需要传输的数据压缩至最少. 1)合并压缩CSS.JavaScript.图片,静态资源CDN ...
- Git小技巧 - 指令别名及使用Beyond Compare作为差异比较工具
前言 本文主要写给使用命令行来操作Git的用户,用于提高Git使用的效率.至于使用命令还是GUI(Tortoise Git或VS的Git插件)就不在此讨论了,大家根据自己的的喜好选择就好.我个人是比较 ...
- 分享两个BPM配置小技巧
1.小技巧 流程图修改后发布的话版本号会+1,修改次数多了之后可能会导致版本号很高,这个时候可以将流程导出,然后删除对应的流程包再导入,发布数据模型和流程图之后,版本清零 2.小技巧 有的同事入职后使 ...
- linux系统维护时的一些小技巧,包括系统挂载新磁盘的方法!可收藏!
这里发布一些平时所用到的小技巧,不多,不过会持续更新.... 1.需要将history创建硬链接ln 全盘需要备份硬链接 ln /etc/xxx /home/xxx 2.root用户不可以远程 /et ...
- JS处理事件小技巧
今天,就分享一下我自己总结的一些JS的小技巧: ①防止鼠标选中事件 <div class="mask" onselectstart="return false&qu ...
随机推荐
- mfoc安装编译
系统环境 UBUNTU16.04,要安装好各种基础的编译环境,这就不说了,如果不知道需要什么,那就编译时出错时看到什么安装什么吧 下载源码包libnfc, mfoc, mfcuk,都是github上, ...
- Flexible and Economical UTF-8 Decoder
http://bjoern.hoehrmann.de/utf-8/decoder/dfa/
- dedecms安装完成后登录后台出现空白
今天家里的电脑上新装DEDE5.7后台登陆后竟然一片空白经过分析代码,发现登录验证的时候用到了这个函数session_register(我的环境:win7+PHP5.4.3+Apache2.2.22+ ...
- 2017.2.21 activiti实战--第七章--Activiti与spring集成(一)配置文件
学习资料:<Activiti实战> 第七章 Activiti与容器集成 本章讲解activiti-spring可以做的事情,如何与现有系统集成,包含bean的注入.统一事务管理等. 7.1 ...
- mootools客户端框架
mootools客户端框架 学习:http://www.chinamootools.com/ 官网:https://mootools.net/ 下载地址: https://github.com/moo ...
- POJ-1190-生日蛋糕-DFS(深搜)-枚举-多重剪枝
题目链接: 这个题目非常好,有难度:能够好好的多做做: #include<iostream> #include<string> #include<cstdio> # ...
- linux下内存
MMU由一个或一组芯片组成.其功能是把逻辑地址映射为物理地址,进行地址转换(MMU是CPU的一部分) 机器指令仍然用逻辑地址指定一个操作数的地址或一条指令的地址 每个逻辑地址都由一个段选择符(16位) ...
- OSX:设置用户默认浏览器
近期我们遇到的情况是,须要统一设置用户的默认浏览器为Google Chrome.而系统默认的是Safari. 这个设置是系统Launch Services基于用户管理的. 意思就是说,即便是改动了系统 ...
- CNN卷积神经网络新想法
近期一直在看卷积神经网络,想改进改进弄出点新东西来.看了好多论文,写了一篇综述.对深度学习中卷积神经网络有了一些新认识,和大家分享下. 事实上卷积神经网络并非一项新兴的算法.早在上世纪八十年代就已经被 ...
- 【Android】内存卡图片读取器,图库app
上一篇<[Android]读取sdcard卡上的全部图片而且显示,读取的过程有进度条显示>(点击打开链接)在真机上測试非常有问题.常常遇到内存溢出.卡死的情况.由于如今真机上的内存上,2G ...