>>> from pandas import Series,DataFrame
>>> obj=Series([4.5,7.2,-5.3,3.6],index=['d','b','a','c'])
>>> obj
d 4.5
b 7.2
a -5.3
c 3.6
dtype: float64
>>> obj2=obj.reindex(['a','b','c','d','e'])
>>> obj2
a -5.3
b 7.2
c 3.6
d 4.5
e NaN
dtype: float64
>>> obj.reindex(['a','b','c','d','e'],fill_value=0)
a -5.3
b 7.2
c 3.6
d 4.5
e 0.0
dtype: float64
method参数介绍 | |
参数 | 说明 |
ffill或pad | 前向填充 |
bfill或backfill | 后向填充 |
>>> obj3=Series(['blue','red','yellow'],index=[0,2,4])
>>> obj3.reindex(range(6),method='ffill')
0 blue
1 blue
2 red
3 red
4 yellow
5 yellow
dtype: object
>>> DataFrame(np.arange(9).reshape((3,3)),index=['a','c','d'],columns=['ohio','texas','california'])
ohio texas california
a 0 1 2
c 3 4 5
d 6 7 8
>>> frame=DataFrame(np.arange(9).reshape((3,3)),index=['a','c','d'],columns=['ohio','texas','california'])
>>> frame2=frame.reindex(['a','b','c','d'])
>>> frame2
ohio texas california
a 0 1 2
b NaN NaN NaN
c 3 4 5
d 6 7 8
>>> frame.reindex(columns=['texas','utah','california'])
texas utah california
a 1 NaN 2
c 4 NaN 5
d 7 NaN 8
texas utah california
a 1 NaN 2
b NaN NaN NaN
c 4 NaN 5
d 7 NaN 8
>>> obj=Series(np.arange(5),index=['a','b','c','d','e'])
>>> new_obj=obj.drop('c')
>>> new_obj
a 0
b 1
d 3
e 4
dtype: int32
>>> frame=DataFrame(np.arange(9).reshape((3,3)),index=['a','c','d'],columns=['ohio','texas','california'])
>>> frame.drop(['ohio'],axis=1)
texas california
a 1 2
c 4 5
d 7 8
>>> frame.drop(['ohio'],axis=1)
texas california
a 1 2
c 4 5
d 7 8
>>> frame
ohio texas california
a 0 1 2
c 3 4 5
d 6 7 8
>>> frame['ohio']
a 0
c 3
d 6
Name: ohio, dtype: int32
>>> frame[:2]
ohio texas california
a 0 1 2
c 3 4 5
>>> frame[frame['ohio']>=3]
ohio texas california
c 3 4 5
d 6 7 8
>>> frame
ohio texas california
a 0 1 2
c 3 4 5
d 6 7 8
>>> frame.ix['a',['ohio','texas']] #注意行标签在前,列标签在后
ohio 0
texas 1
Name: a, dtype: int32
>>> s1=Series([7.3,-2.5,3.4,1.5],index=['a','c','d','e'])
>>> s2=Series([-2.1,3.6,-1.5,4,3.1],index=['a','c','e','f','g'])
>>> s1+s2
a 5.2
c 1.1
d NaN
e 0.0
f NaN
g NaN
dtype: float64
>>> df1=DataFrame(np.arange(9).reshape((3,3)),columns=list('bcd'),index=['ohio','texas','colorado'])
>>> df2=DataFrame(np.arange(12).reshape((4,3)),columns=list('bde'),index=['utah','ohio','texas','oregon'])
>>> df1
b c d
ohio 0 1 2
texas 3 4 5
colorado 6 7 8
>>> df2
b d e
utah 0 1 2
ohio 3 4 5
texas 6 7 8
oregon 9 10 11
>>> df1+df2
b c d e
colorado NaN NaN NaN NaN
ohio 3 NaN 6 NaN
oregon NaN NaN NaN NaN
texas 9 NaN 12 NaN
utah NaN NaN NaN NaN
>>> df1
b c d
ohio 0 1 2
texas 3 4 5
colorado 6 7 8
>>> df2
b d e
utah 0 1 2
ohio 3 4 5
texas 6 7 8
oregon 9 10 11
>>> df1.add(df2,fill_value=0)
b c d e
colorado 6 7 8 NaN
ohio 3 1 6 5
oregon 9 NaN 10 11
texas 9 4 12 8
utah 0 NaN 1 2
>>> frame=DataFrame(np.arange(12).reshape((4,3)),columns=list('bde'),index=['utah','ohio','texas','oregon'])
>>> series=frame.ix[0]
>>> frame
b d e
utah 0 1 2
ohio 3 4 5
texas 6 7 8
oregon 9 10 11
>>> series
b 0
d 1
e 2
Name: utah, dtype: int32
>>> frame-series
b d e
utah 0 0 0
ohio 3 3 3
texas 6 6 6
oregon 9 9 9
>>> frame['d']
utah 1
ohio 4
texas 7
oregon 10
Name: d, dtype: int32
>>> frame.sub(frame['d'],axis=0)
b d e
utah -1 0 1
ohio -1 0 1
texas -1 0 1
oregon -1 0 1
>>> frame=DataFrame(np.random.randn(4,3),columns=list('bde'),index=['utah','ohio','texas','oregon'])
>>> frame
b d e
utah -1.258749 0.147998 0.250556
ohio 0.801182 -0.295881 1.377340
texas -0.281857 -0.009323 -0.520724
oregon 1.859103 0.098237 -0.475264
>>> np.abs(frame)
b d e
utah 1.258749 0.147998 0.250556
ohio 0.801182 0.295881 1.377340
texas 0.281857 0.009323 0.520724
oregon 1.859103 0.098237 0.475264
>>> f=lambda x: x.max()-x.min()
>>> frame.apply(f) #在行上进行操作
b 3.117851
d 0.443879
e 1.898065
dtype: float64
>>> frame.apply(f,axis=1)#在列上进行函数操作
utah 1.509304
ohio 1.673221
texas 0.511402
oregon 2.334367
dtype: float64
>>> format1=lambda x:'%.2f' %x
>>> frame.applymap(format1) #用applymap,是因为Series有一个用于元素级函数的map方法
b d e
utah -1.26 0.15 0.25
ohio 0.80 -0.30 1.38
texas -0.28 -0.01 -0.52
oregon 1.86 0.10 -0.48
>>> obj=Series(range(4),index=['a','b','c','d'])
>>> obj.sort_index()
a 0
b 1
c 2
d 3
dtype: int64
>>> frame=DataFrame(np.arange(8).reshape((2,4)),index=['three','one'],columns=['d','a','b','c'])
>>> frame
d a b c
three 0 1 2 3
one 4 5 6 7
>>> frame.sort_index()
d a b c
one 4 5 6 7
three 0 1 2 3
>>> frame.sort_index(axis=1) #指定轴进行排序
a b c d
three 1 2 3 0
one 5 6 7 4
>>> obj
a 0
b 1
c 2
d 3
dtype: int64
>>> obj.order(ascending=False)
d 3
c 2
b 1
a 0
dtype: int64 #排序时任何缺失值都会被排到Series的末尾
>>> frame=DataFrame({'a':[4,7,-3,2],'b':[0,1,0,1]})
>>> frame
a b
0 4 0
1 7 1
2 -3 0
3 2 1
>>> frame.sort_index(by='b')
a b
0 4 0
2 -3 0
1 7 1
3 2 1
>>> frame.sort_index(by=['a','b']) #多列排序传入列名的列表即可
a b
2 -3 0
3 2 1
0 4 0
1 7 1
>>> obj=Series([7,-5,7,4,2,0,4])
>>> obj
0 7
1 -5
2 7
3 4
4 2
5 0
6 4
dtype: int64
>>> obj.rank()
0 6.5
1 1.0
2 6.5
3 4.5
4 3.0
5 2.0
6 4.5
dtype: float64
>>> obj.rank(method='first')
0 6
1 1
2 7
3 4
4 3
5 2
6 5
dtype: float64
>>> obj.rank(ascending=False,method='max')
0 2
1 7
2 2
3 4
4 5
5 6
6 4
dtype: float64
>>> obj=Series(range(5),index=['a','a','b','b','c'])
>>> obj.index.is_unique
>>> obj['a']
a 0
a 1
dtype: int64
>>> obj['c']
>>> df=DataFrame([[1.4,np.nan],[7.1,-4.5],[np.nan,np.nan],[0.75,-1.3]],index=['a','b','c','d'],columns=['one','two'])
>>> df
one two
a 1.40 NaN
b 7.10 -4.5
c NaN NaN
d 0.75 -1.3
>>> df.idxmax()
one b
two d
dtype: object
>>> df.cumsum()
one two
a 1.40 NaN
b 8.50 -4.5
c NaN NaN
d 9.25 -5.8
>>> df.describe()
one two
count 3.000000 2.000000
mean 3.083333 -2.900000
std 3.493685 2.262742
min 0.750000 -4.500000
25% 1.075000 -3.700000
50% 1.400000 -2.900000
75% 4.250000 -2.100000
max 7.100000 -1.300000
>>> obj=Series(['a','a','b','c']*4)
>>> obj.describe()
count 16
unique 3
top a
freq 8
dtype: object
描述和汇总统计方法介绍 | |
参数 | 说明 |
count | 非NA值的数量 |
describe | 针对Series或各DataFrame列计算汇总统计 |
min,max | 计算最大值和最小值 |
argmin,argmax | 计算能够获取到最大最小值的索引位置(整数) |
idxmin,idxmax | 计算能够获取到最大最小值的索引值 |
sum | 值的求和 |
mean | 均值 |
mad | 根据平均值计算绝对离差 |
var | 方差 |
std | 标准差 |
diff | 计算一阶差分 |
cumsum | 样本值的累积和 |
>>> obj=Series(['c','a','d','a','a','b','b','c'])
>>> uniques=obj.unique()
>>> uniques
array(['c', 'a', 'd', 'b'], dtype=object)
>>> obj.value_counts()
a 3
b 2
c 2
d 1
dtype: int64
>>> mask=obj.isin(['b','c'])
>>> mask
0 True
1 False
2 False
3 False
4 False
5 True
6 True
7 True
dtype: bool
>>> obj[mask]
0 c
5 b
6 b
7 c
dtype: object
>>> from pandas import Series,DataFrame
>>> import numpy as np
>>> string_data=Series(['aardvark','artichoke',np.nan,'avocado'])
>>> string_data
0 aardvark
1 artichoke
2 NaN
3 avocado
dtype: object
>>> sring_data.isnull()
>>> string_data.isnull()
0 False
1 False
2 True
3 False
dtype: bool
>>> string_data[0]=None
>>> string_data.isnull()
0 True
1 False
2 True
3 False
dtype: bool
>>> data=Series([1,np.nan,3.5,np.nan,7])
>>> data
0 1.0
1 NaN
2 3.5
3 NaN
4 7.0
dtype: float64
>>> data.dropna()
0 1.0
2 3.5
4 7.0
dtype: float64
>>> data[data.notnull()]
0 1.0
2 3.5
4 7.0
dtype: float64
>>> data=DataFrame([[1,6.5,3],[1,np.nan,np.nan],[np.nan,np.nan,np.nan],[np.nan,6.5,3]])
>>> data
0 1 2
0 1 6.5 3
1 1 NaN NaN
2 NaN NaN NaN
3 NaN 6.5 3
>>> cleaned=data.dropna()
>>> cleaned
0 1 2
0 1 6.5 3
>>> data.dropna(how='all')
0 1 2
0 1 6.5 3
1 1 NaN NaN
3 NaN 6.5 3
>>> df.ix[:4,1]=np.nan
>>> df
0 1 2
0 0.644651 NaN -0.858760
1 -0.093238 NaN -0.179058
2 1.547357 NaN -0.160275
3 -0.159654 NaN -0.898084
4 -0.987568 NaN -0.128100
5 -0.950301 -0.882556 0.155634
6 1.090057 -0.312113 -1.098901
>>> df.fillna(0)
0 1 2
0 0.644651 0.000000 -0.858760
1 -0.093238 0.000000 -0.179058
2 1.547357 0.000000 -0.160275
3 -0.159654 0.000000 -0.898084
4 -0.987568 0.000000 -0.128100
5 -0.950301 -0.882556 0.155634
6 1.090057 -0.312113 -1.098901
>>> df.fillna({1:0.5,3:-1})
0 1 2
0 0.644651 0.500000 -0.858760
1 -0.093238 0.500000 -0.179058
2 1.547357 0.500000 -0.160275
3 -0.159654 0.500000 -0.898084
4 -0.987568 0.500000 -0.128100
5 -0.950301 -0.882556 0.155634
6 1.090057 -0.312113 -1.098901
>>> data=Series(np.random.randn(10),index=[['a','a','a','b','b','b','c','c','d','d'],[1,2,3,1,2,3,1,2,2,3]])
>>> data
a 1 0.671419
2 -0.645337
3 -0.681691
b 1 -1.096300
2 -1.017407
3 -0.299791
c 1 1.268928
2 1.051565
d 2 0.821926
3 -0.628511
dtype: float64
>>> data['b']
1 -1.096300
2 -1.017407
3 -0.299791
dtype: float64
>>> data[:,2]
a -0.645337
b -1.017407
c 1.051565
d 0.821926
dtype: float64
>>> data.unstack()
1 2 3
a 0.671419 -0.645337 -0.681691
b -1.096300 -1.017407 -0.299791
c 1.268928 1.051565 NaN
d NaN 0.821926 -0.628511
>>> data.unstack().stack()
a 1 0.671419
2 -0.645337
3 -0.681691
b 1 -1.096300
2 -1.017407
3 -0.299791
c 1 1.268928
2 1.051565
d 2 0.821926
3 -0.628511
dtype: float64
>>> frame=DataFrame(np.arange(12).reshape((4,3)),index=[['a','a','b','b'],[1,2,1,2]],columns=[['ohio','ohio','colorado'],['green','red','green']])
>>> frame
ohio colorado
green red green
a 1 0 1 2
2 3 4 5
b 1 6 7 8
2 9 10 11
>>> frame.index.names=['key1','key2']
>>> frame.columns.names=['state','color']
>>> frame.swaplevel('key1','key2')
state ohio colorado
color green red green
key2 key1
1 a 0 1 2
2 a 3 4 5
1 b 6 7 8
2 b 9 10 11
>>> frame.sum(level='key2')
state ohio colorado
color green red green
1 6 8 10
2 12 14 16
>>> frame.sum(level='color',axis=1)
color green red
key1 key2
a 1 2 1
2 8 4
b 1 14 7
2 20 10
>>> frame=DataFrame({'a':range(7),'b':range(7,0,-1),'c':['one','one','one','two','two','two','two'],'d':[0,1,2,0,1,2,3]})
>>> frame2=frame.set_index(['c','d'])
>>> frame2
a b
c d
one 0 0 7
1 1 6
2 2 5
two 0 3 4
1 4 3
2 5 2
3 6 1
- 利用python进行数据分析之pandas库的应用(一)
一.pandas的数据结构介绍 Series Series是由一种类似于一维数组的对象,它由一组数据以及一组与之相关的数据索引构成.仅由一组数据可产生最简单的Series. obj=Series([4 ...
- 利用Python进行数据分析(12) pandas基础: 数据合并
pandas 提供了三种主要方法可以对数据进行合并: pandas.merge()方法:数据库风格的合并: pandas.concat()方法:轴向连接,即沿着一条轴将多个对象堆叠到一起: 实例方法c ...
- 利用Python进行数据分析(9) pandas基础: 汇总统计和计算
pandas 对象拥有一些常用的数学和统计方法. 例如,sum() 方法,进行列小计: sum() 方法传入 axis=1 指定为横向汇总,即行小计: idxmax() 获取最大值对应的索 ...
- 利用Python进行数据分析(8) pandas基础: Series和DataFrame的基本操作
一.reindex() 方法:重新索引 针对 Series 重新索引指的是根据index参数重新进行排序. 如果传入的索引值在数据里不存在,则不会报错,而是添加缺失值的新行. 不想用缺失值,可以用 ...
- 利用Python进行数据分析(7) pandas基础: Series和DataFrame的简单介绍
一.pandas 是什么 pandas 是基于 NumPy 的一个 Python 数据分析包,主要目的是为了数据分析.它提供了大量高级的数据结构和对数据处理的方法. pandas 有两个主要的数据结构 ...
- 利用python进行数据分析之pandas入门
转自https://zhuanlan.zhihu.com/p/26100976 目录: 5.1 pandas 的数据结构介绍5.1.1 Series5.1.2 DataFrame5.1.3索引对象5. ...
- 《利用python进行数据分析》读书笔记 --第一、二章 准备与例子
http://www.cnblogs.com/batteryhp/p/4868348.html 第一章 准备工作 今天开始码这本书--<利用python进行数据分析>.R和python都得 ...
- 利用Python进行数据分析(10) pandas基础: 处理缺失数据
数据不完整在数据分析的过程中很常见. pandas使用浮点值NaN表示浮点和非浮点数组里的缺失数据. pandas使用isnull()和notnull()函数来判断缺失情况. 对于缺失数据一般处理 ...
- 用python做数据分析4|pandas库介绍之DataFrame基本操作
原文地址 怎样删除list中空字符? 最简单的方法:new_list = [ x for x in li if x != '' ] 今天是5.1号. 这一部分主要学习pandas中基于前面两种数据结构 ...
- Swift语法总结(精简版)
第一部分: 1. Swift简介 2010年的夏天,苹果公司的开发人员Chris Lattne接到了一个特别的任务,为OS X 和iOS平台开发下一代的编程语言,也就是Swift. 苹果公司于2014 ...
- iOS动态运行时方法
在某些时候,程序可能需要根据获取的参数来决定调用的方法. 要实现这样的功能,就需要使用到动态运行时方法了. 首先需要定义好接口,以便调用. 然后就是动态调用定义好的方法. 这里有两种方法, 第一种: ...
- 关于 FPGA 和 外部芯片接口时序设计
在看这篇文章之前, 建议先好好读下这篇文章.http://download.csdn.net/detail/angelbosj/8013827. 因为我不太会用 VISio.要是哪位网友能告诉我.怎么 ...
- 如何获取启动文件路径 GetModuleFileName
如何获取启动文件路径 GetModuleFileName CString GetExeDirPath() { }; CString strExeDirPath; GetModuleFileName(N ...
- SQL server与Oracle触发器的创建与使用
SQL Server 1创建触发器 GO BEGIN IF (object_id('WMY', 'tr') is not null) DROP trigger WMY END; GO CREATE T ...
- springmvc入门demo
目录结构: package com.wyl; import org.springframework.stereotype.Controller; import org.springframework. ...
- The following classes could not be found: - android.support.v7.internal.widget.ActionBarOverlayLayou解决方案
如图出现如下的错误的时候,一般都是升级Androdi Studio 后导致的,引入库不全,或者其他 东西缺少,可以如下解决方案: 或者如下的解决方案: 在布局文件的Design界面中,修改原来的App ...
- codevs 3013 单词背诵 hash
题目链接 题目描述 Description 灵梦有n个单词想要背,但她想通过一篇文章中的一段来记住这些单词. 文章由m个单词构成,她想在文章中找出连续的一段,其中包含最多的她想要背的单词(重复的只算一 ...
- hdu 3572 Escape 网络流
题目链接 给一个n*m的图, 里面有一些点, '.'代表空地, '#'代表墙, 不可以走, '@'代表大门, 可以有多个, 'X'代表人, 问所有人都走出大门需要的最短时间, 每一时刻一个格子只能有一 ...
- Linux例行工作crontab
第一步编辑要定时执行的脚本: myScript.sh myScript.sh的内容为:touch /root/`date +%F' '%T`.txt 为myScript.sh增加可执行权限:chmod ...