Pandas

pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。
Pandas 纳入了大量库和一些标准的数据模型，提供了高效地操作大型数据集所需的工具。
pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

　　>>> from pandas import Series, DataFrame

　　>>> import pandas as pd

A.pandas

函数	说明
pd.isnull(series) pd.notnull(series)	判断是否为空(NaN) 判断是否不为空(not NaN)

2.2.A.1 pandas常用函数

B.Series

　　　　Series可以运用ndarray或字典的几乎所有索引操作和函数，融合了字典和ndarray的优点。

属性	说明
values	获取数组
index	获取索引
name	values的name
index.name	索引的name

2.2.B.1 Series常用属性

函数	说明
Series([x,y,...])Series({'a':x,'b':y,...}, index=param1)	生成一个Series
Series.copy()	复制一个Series
Series.reindex([x,y,...], fill_value=NaN) Series.reindex([x,y,...], method=NaN) Series.reindex(columns=[x,y,...])	重返回一个适应新索引的新对象，将缺失值填充为fill_value 返回适应新索引的新对象，填充方式为method 对列进行重新索引
Series.drop(index)	丢弃指定项
Series.map(f)	应用元素级函数

排序函数	说明
Series.sort_index(ascending=True)	根据索引返回已排序的新对象
Series.order(ascending=True)	根据值返回已排序的对象，NaN值在末尾
Series.rank(method='average', ascending=True, axis=0)	为各组分配一个平均排名
df.argmax() df.argmin()	返回含有最大值的索引位置返回含有最小值的索引位置

2.2.B.2 Series常用函数

　　　　reindex的method选项：

　　　　　　ffill, bfill　　　　　向前填充/向后填充

　　　　　　pad, backfill　　　向前搬运，向后搬运

　　　　rank的method选项

　　　　　　'average'　　　　在相等分组中，为各个值分配平均排名

　　　　　　'max','min'　　　使用整个分组中的最小排名

　　　　　　'first'　　　　　　按值在原始数据中出现的顺序排名

C.DataFrame

DataFrame是一个表格型的数据结构，它含有一组有序的列，每列可以是不同的值类型（数值、字符串、布尔值等）。
DataFrame既有行索引也有列索引，它可以被看做由Series组成的字典（共用同一个索引）。
DataFrame可以通过类似字典的方式或者.columnname的方式将列获取为一个Series。
行也可以通过位置或名称的方式进行获取。
为不存在的列赋值会创建新列。

　　　　>>> del frame['xxx']　　# 删除列

属性	说明
values	DataFrame的值
index	行索引
index.name	行索引的名字
columns	列索引
columns.name	列索引的名字
ix	返回行的DataFrame
ix[[x,y,...], [x,y,...]]	对行重新索引，然后对列重新索引
T	frame行列转置

2.2.C.1 DataFrame常用属性

函数	说明
DataFrame(dict, columns=dict.index, index=[dict.columnnum]) DataFrame(二维ndarray) DataFrame(由数组、列表或元组组成的字典) DataFrame(NumPy的结构化/记录数组) DataFrame(由Series组成的字典) DataFrame(由字典组成的字典) DataFrame(字典或Series的列表) DataFrame(由列表或元组组成的列表) DataFrame(DataFrame) DataFrame(NumPy的MaskedArray)	构建DataFrame 数据矩阵，还可以传入行标和列标每个序列会变成DataFrame的一列。所有序列的长度必须相同类似于“由数组组成的字典” 每个Series会成为一列。如果没有显式制定索引，则各Series的索引会被合并成结果的行索引各内层字典会成为一列。键会被合并成结果的行索引。各项将会成为DataFrame的一行。索引的并集会成为DataFrame的列标。类似于二维ndarray 沿用DataFrame 类似于二维ndarray，但掩码结果会变成NA/缺失值
df.reindex([x,y,...], fill_value=NaN, limit) df.reindex([x,y,...], method=NaN) df.reindex([x,y,...], columns=[x,y,...],copy=True)	返回一个适应新索引的新对象，将缺失值填充为fill_value，最大填充量为limit 返回适应新索引的新对象，填充方式为method 同时对行和列进行重新索引，默认复制新对象。
df.drop(index, axis=0)	丢弃指定轴上的指定项。

排序函数	说明
df.sort_index(axis=0, ascending=True) df.sort_index(by=[a,b,...])	根据索引排序

汇总统计函数	说明
df.count()	非NaN的数量
df.describe()	一次性产生多个汇总统计
df.min() df.min()	最小值最大值
df.idxmax(axis=0, skipna=True) df.idxmin(axis=0, skipna=True)	返回含有最大值的index的Series 返回含有最小值的index的Series
df.quantile(axis=0)	计算样本的分位数
df.sum(axis=0, skipna=True, level=NaN) df.mean(axis=0, skipna=True, level=NaN) df.median(axis=0, skipna=True, level=NaN) df.mad(axis=0, skipna=True, level=NaN) df.var(axis=0, skipna=True, level=NaN) df.std(axis=0, skipna=True, level=NaN) df.skew(axis=0, skipna=True, level=NaN) df.kurt(axis=0, skipna=True, level=NaN) df.cumsum(axis=0, skipna=True, level=NaN) df.cummin(axis=0, skipna=True, level=NaN) df.cummax(axis=0, skipna=True, level=NaN) df.cumprod(axis=0, skipna=True, level=NaN) df.diff(axis=0) df.pct_change(axis=0)	返回一个含有求和小计的Series 返回一个含有平均值的Series 返回一个含有算术中位数的Series 返回一个根据平均值计算平均绝对离差的Series 返回一个方差的Series 返回一个标准差的Series 返回样本值的偏度（三阶距）返回样本值的峰度（四阶距）返回样本的累计和返回样本的累计最大值返回样本的累计最小值返回样本的累计积返回样本的一阶差分返回样本的百分比数变化


计算函数	说明
df.add(df2, fill_value=NaN, axist=1) df.sub(df2, fill_value=NaN, axist=1) df.div(df2, fill_value=NaN, axist=1) df.mul(df2, fill_value=NaN, axist=1)	元素级相加，对齐时找不到元素默认用fill_value 元素级相减，对齐时找不到元素默认用fill_value 元素级相除，对齐时找不到元素默认用fill_value 元素级相乘，对齐时找不到元素默认用fill_value
df.apply(f, axis=0)	将f函数应用到由各行各列所形成的一维数组上
df.applymap(f)	将f函数应用到各个元素上
df.cumsum(axis=0, skipna=True)	累加，返回累加后的dataframe

2.2.C.2 Dataframe常用函数

索引方式	说明
df[val]	选取DataFrame的单个列或一组列
df.ix[val]	选取Dataframe的单个行或一组行
df.ix[:,val]	选取单个列或列子集
df.ix[val1,val2]	将一个或多个轴匹配到新索引
reindex方法	将一个或多个轴匹配到新索引
xs方法	根据标签选取单行或者单列，返回一个Series
icol、irow方法	根据整数位置选取单列或单行，并返回一个Series
get_value、set_value	根据行标签和列标签选取单个值

2.2.C.3 Dataframe常用索引方式

　　　　运算：

　　　　　　默认情况下，Dataframe和Series之间的算术运算会将Series的索引匹配到的Dataframe的列，沿着列一直向下传播。若索引找不到，则会重新索引产生并集。

D.Index

pandas的索引对象负责管理轴标签和其他元数据（比如轴名称等）。
构建Series或DataFrame时，所用到的任何数组或其他序列的标签都会被转换成一个Index。
Index对象不可修改，从而在多个数据结构之间安全共享。

主要的Index对象	说明
Index	最广泛的Index对象，将轴标签表示为一个由Python对象组成的NumPy数组
Int64Index	针对整数的特殊Index
MultiIndex	“层次化”索引对象，表示单个轴上的多层索引。可以看做由元组组成的数组
DatetimeIndex	存储纳秒级时间戳（用NumPy的Datetime64类型表示）
PeriodIndex	针对Period数据（时间间隔）的特殊Index

2.2.D.1 主要的Index属性

函数	说明
Index([x,y,...])	创建索引
append(Index)	连接另一个Index对象，产生一个新的Index
diff(Index)	计算差集，产生一个新的Index
intersection(Index)	计算交集
union(Index)	计算并集
isin(Index)	检查是否存在与参数索引中，返回bool型数组
delete(i)	删除索引i处元素，得到新的Index
drop(str)	删除传入的值，得到新Index
insert(i,str)	将元素插入到索引i处，得到新Index
is_monotonic()	当各元素大于前一个元素时，返回true
is_unique()	当Index没有重复值时，返回true
unique()	计算Index中唯一值的数组

2.2.D.2 常用Index函数

Pandas常用操作方法的更多相关文章

js数组常用操作方法小结(增加,删除,合并,分割等)
本文实例总结了js数组常用操作方法.分享给大家供大家参考,具体如下: var arr = [1, 2, 3, 4, 5]; //删除并返回数组中第一个元素 var theFirst = arr.shi ...
Set对象常用操作方法和遍历
Set<String> set = new HashSet<String>(); /** * set的常用操作方法有: * add()向集合添加元素 clear()清空集合元素 ...
pandas常用函数之shift
shift函数是对数据进行移动的操作,假如现在有一个DataFrame数据df,如下所示: index value1 A 0 B 1 C 2 D 3 那么如果执行以下代码: df.shift() 就会 ...
pandas常用函数之diff
diff函数是用来将数据进行某种移动之后与原数据进行比较得出的差异数据,举个例子,现在有一个DataFrame类型的数据df,如下: index value1 A 0 B 1 C 2 D 3 如果执行 ...
Python文件常用操作方法
Python文件常用操作方法一.对File对象常用操作方法: file= open(file, mode='r', buffering=-1, encoding=None, errors=None, ...
python 字符串常用操作方法
python 字符串常用操作方法 python 字符串操作常用操作,如字符串的替换.删除.截取.赋值.连接.比较.查找.分割等 1.去除空格 str.strip():删除字符串两边的指定字符,括号的写 ...
C++中vector容器的常用操作方法实例总结
C++中vector容器的常用操作方法实例总结参考 1. C++中vector容器的常用操作方法实例总结: 完
pandas 常用函数整理
pandas常用函数整理,作为个人笔记. 仅标记函数大概用途做索引用,具体使用方式请参照pandas官方技术文档. 约定 from pandas import Series, DataFrame im ...
Python数据分析与挖掘所需的Pandas常用知识
Python数据分析与挖掘所需的Pandas常用知识前言Pandas基于两种数据类型:series与dataframe.一个series是一个一维的数据类型,其中每一个元素都有一个标签.series ...

随机推荐

Python 函数进阶（filter/map/json/zip）
一.函数即变量 def say(name): print(name)ybq = say #可以被赋值给其他变量ybq('Amily') #调用函数函数名:say 函数体:第1-2行返回值:retu ...
InnoDB：表
数据在表中是如何进行组织存放的?下面我们就来看看: InnoDB引擎表的类型 InnoDB表都会有一个主键. 如果没有显示的指定主键,首先会去查找,看是否有非空的唯一索引, 如果有,则该列为主键:如果 ...
简单讲一下 SpringMVC的执行流程?
执行流程: 1. 用户向服务器发送请求,请求被 Spring 前端控制 Servelt DispatcherServlet 捕获(捕获) . DispatcherServlet对请求 URL进行解析 ...
Mybatis热加载Mapper.xml
开发的时候,写Mybatis Mapper.xml文件的时候,每次修改SQL都需要重启服务,感觉十分麻烦,于是尝试写了一个Mybatis的Mapper.xml热加载. 能在修改Mapper.xml之后 ...
在Linux系统上查看Apache服务器的错误日志
错误日志和访问日志文件为系统管理员提供了有用的信息,比如,为 Web 服务器排障,保护系统不受各种各样的恶意活动侵犯,或者只是进行各种各样的分析以监控 HTTP 服务器.根据你 Web 服务器配置的不 ...
noip 模拟赛 After 17（递推+特殊的技巧）
来源:Violet_II T1 好神的一题,我竟然没做出来QAQ 首先我们发现,答案是sigma(x[i]*x[j], i>j)+sigma(y[i]*y[j], i>j).显然只需要讨论 ...
【BZOJ】1665: [Usaco2006 Open]The Climbing Wall 攀岩（spfa）
http://www.lydsy.com/JudgeOnline/problem.php?id=1665 这题只要注意到“所有的落脚点至少相距300”就可以大胆的暴力了. 对于每个点,我们枚举比他的x ...
websphere web.xml
解决WAS更新web.xml文件不生效的问题(web_merged.xml是罪魁祸首) 问题原因分析近日碰到更新web.xml文件到WAS服务器(WebSphere Application Se ...
ChemDraw Pro移动原子有什么方法
很多的用户朋友在使用ChemDraw Pro 14过程中,会发现我们用[文本]工具在我们绘制的化学结构上建立原子符号和说明时一些标记的原子名称会显得拥挤,这个时候我们可以通过移动原子的方式来把空间放大 ...
【BZOJ2738】矩阵乘法整体二分
[BZOJ2738]矩阵乘法 Description 给你一个N*N的矩阵,不用算矩阵乘法,但是每次询问一个子矩形的第K小数. Input 第一行两个数N,Q,表示矩阵大小和询问组数: 接下来N行N列 ...

Pandas常用操作方法