python数据分析之pandas库的DataFrame应用二

　　本节介绍Series和DataFrame中的数据的基本手段

重新索引

　　pandas对象的一个重要方法就是reindex,作用是创建一个适应新索引的新对象

'''

Created on 2016-8-10

@author: xuzhengzhu

'''

'''

Created on 2016-8-10

@author: xuzhengzhu

'''

from pandas import  *

print "--------------obj result:-----------------"

obj=Series([4.5,7.2,-5.3,3.6],index=['d','b','a','c'])

print obj

print "--------------obj2 result:-----------------"

obj2=obj.reindex(['a','b','c','d','e'])

print obj2

print "--------------obj3 result:-----------------"

obj3=obj.reindex(['a','b','c','d','e'],fill_value=0)

print obj3

reindex

#reindex对索引值进行重排，如果当前索引值不存在，就引入缺失值
#可以指定fill_value=0来进行缺失值的替换

--------------obj result:-----------------

d    4.5

b    7.2

a   -5.3

c    3.6

dtype: float64

--------------obj2 result:-----------------

a   -5.3

b    7.2

c    3.6

d    4.5

e    NaN

dtype: float64

--------------obj3 result:-----------------

a   -5.3

b    7.2

c    3.6

d    4.5

e    0.0

dtype: float64

reindex_index

　　2.插值

　　对于时间序列这样的有序数据，重新索引时可能需要做一些插值处理，method选项即可达到此目的：

method参数介绍
参数	说明
ffill或pad	前向填充
bfill或backfill	后向填充

'''

Created on 2016-8-10

@author: xuzhengzhu

'''

from pandas import  *

print "--------------obj3 result:-----------------"

obj3=Series(['blue','red','yellow'],index=[0,2,4])

print obj3

print "--------------obj4 result:-----------------"

obj4=obj3.reindex(range(6),method='ffill')

print obj4

ffill前向填充

--------------obj3 result:-----------------

0      blue

2       red

4    yellow

dtype: object

--------------obj4 result:-----------------

0      blue

1      blue

2       red

3       red

4    yellow

5    yellow

dtype: object

ffill结果：

　　对于DataFrame数据类型，reindex可以修改行与列索引，但如果仅传入一个序列，则优先重新索引行：

'''

Created on 2016-8-10

@author: xuzhengzhu

'''

from pandas import  *

print "--------------frame result:-----------------"

frame=DataFrame(np.arange(9).reshape((3,3)),index=['a','c','d'],columns=['ohio','texas','california'])

print frame

print "--------------frame2 result:-----------------"

frame2=frame.reindex(['a','b','c','d'])

print frame2

print "--------------frame3 result:-----------------"

frame3=frame.reindex(columns=['texas','utah','california'])

print frame3

print "--------------frame3 result:-----------------"

frame4=frame.ix[['a','b','c','d'],['texas','utah','california']]

print frame4

reindex_dataframe

--------------frame result:-----------------

   ohio  texas  california

a     0      1           2

c     3      4           5

d     6      7           8

--------------frame2 result:-----------------

   ohio  texas  california

a   0.0    1.0         2.0

b   NaN    NaN         NaN

c   3.0    4.0         5.0

d   6.0    7.0         8.0

--------------frame3 result:-----------------

   texas  utah  california

a      1   NaN           2

c      4   NaN           5

d      7   NaN           8

--------------frame3 result:-----------------

   texas  utah  california

a    1.0   NaN         2.0

b    NaN   NaN         NaN

c    4.0   NaN         5.0

d    7.0   NaN         8.0

reindex结果：

　　3.指定轴上的项

'''

Created on 2016-8-10

@author: xuzhengzhu

'''

from pandas import  *

print "--------------Series drop item by index:-----------------"

obj=Series(np.arange(3,8),index=['a','b','c','d','e'])

print obj

obj1=obj.drop('c')

print obj1

print "--------------DataFrame drop item by index :-----------------"

frame=DataFrame(np.arange(9).reshape((3,3)),index=['a','c','d'],columns=['ohio','texas','california'])

print frame

frame1=frame.drop(['ohio'],axis=1)

print frame1

指定轴上的项

--------------Series drop item by index:-----------------

a    3

b    4

c    5

d    6

e    7

dtype: int32

a    3

b    4

d    6

e    7

dtype: int32

--------------DataFrame drop item by index :-----------------

   ohio  texas  california

a     0      1           2

c     3      4           5

d     6      7           8

   texas  california

a      1           2

c      4           5

d      7           8

drop_item

#对于DataFrame，可以删除任意轴上的索引值

　　4.索引，选取和过滤

　　Series利用标签的切片运算与普通的python切片运算不同，其末端是包含的，

　　DataFrame进行索引就是获取一个或多个列

'''

Created on 2016-8-10

@author: xuzhengzhu

'''

from pandas import  *

print "--------------DataFrame drop item by index :-----------------"

frame=DataFrame(np.arange(9).reshape((3,3)),index=['a','c','d'],columns=['ohio','texas','california'])

print frame

frame1=frame.drop(['ohio'],axis=1)

print frame1

print "--------------DataFrame filter item by index :-----------------"

#也可通过切片和布尔型来选取

print frame['ohio']

print frame[:2]

print frame[frame['ohio']>=3]

print "--------------DataFrame filter item by index :-----------------"

#在DateFrame上进行标签索引，引入ix： 注意行标签在前，列标签在后

print frame.ix['a',['ohio','texas']]

索引选取和过滤

--------------DataFrame drop item by index :-----------------

   ohio  texas  california

a     0      1           2

c     3      4           5

d     6      7           8

   texas  california

a      1           2

c      4           5

d      7           8

--------------DataFrame filter item by index :-----------------

a    0

c    3

d    6

Name: ohio, dtype: int32

   ohio  texas  california

a     0      1           2

c     3      4           5

   ohio  texas  california

c     3      4           5

d     6      7           8

--------------DataFrame filter item by index :-----------------

ohio     0

texas    1

Name: a, dtype: int32

结果：

　　5.算术运算和数据对齐

'''

Created on 2016-8-10

@author: xuzhengzhu

'''

from pandas import  *

print "--------------DataFrame drop item by index :-----------------"

s1=Series([7.3,-2.5,3.4,1.5],index=['a','c','d','e'])

s2=Series([-2.1,3.6,-1.5,4,3.1],index=['a','c','e','f','g'])

print s1+s2

算术运算和数据对齐

--------------DataFrame drop item by index :-----------------

a    5.2

c    1.1

d    NaN

e    0.0

f    NaN

g    NaN

dtype: float64

结果：

'''

Created on 2016-8-10

@author: xuzhengzhu

'''

from pandas import  *

print "--------------DataFrame drop item by index :-----------------"

df1=DataFrame(np.arange(9).reshape((3,3)),columns=list('bcd'),index=['ohio','texas','colorado'])

df2=DataFrame(np.arange(12).reshape((4,3)),columns=list('bde'),index=['utah','ohio','texas','oregon'])

print df1

print "--------------------"

print df2

#只返回行列均匹配的数值

print "-------df1+df2-------------"

print df1+df2

#在对不同的索引对象进行算术运算时，当一个对象中某个轴标签在另一个对象中找不到时填充一个特殊值

print "-------df3-------------"

df3=df1.add(df2,fill_value=0)

print df3

对齐操作

--------------DataFrame drop item by index :-----------------

          b  c  d

ohio      0  1  2

texas     3  4  5

colorado  6  7  8

--------------------

        b   d   e

utah    0   1   2

ohio    3   4   5

texas   6   7   8

oregon  9  10  11

-------df1+df2-------------

            b   c     d   e

colorado  NaN NaN   NaN NaN

ohio      3.0 NaN   6.0 NaN

oregon    NaN NaN   NaN NaN

texas     9.0 NaN  12.0 NaN

utah      NaN NaN   NaN NaN

-------df3-------------

            b    c     d     e

colorado  6.0  7.0   8.0   NaN

ohio      3.0  1.0   6.0   5.0

oregon    9.0  NaN  10.0  11.0

texas     9.0  4.0  12.0   8.0

utah      0.0  NaN   1.0   2.0

结果：

python数据分析之pandas库的DataFrame应用二的更多相关文章

python数据分析之pandas库的DataFrame应用一
DataFrame是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值,字符串,布尔型).DateFrame既有行索引也有列索引,可以被看作为由Series组成的字典. 构建Dat ...
利用python进行数据分析之pandas库的应用（二）
本节介绍Series和DataFrame中的数据的基本手段重新索引 pandas对象的一个重要方法就是reindex,作用是创建一个适应新索引的新对象 >>> from panda ...
Python数据分析：pandas玩转Excel （二）
1 对Excel文件的操作方法一: 使用xlrd库或者xlwt库进行对excel表格的操作读与写: 方法二: pandas库同样支持excel的读写操作:且更加简便. 2 pd.read_excel ...
python数据分析之pandas库的Series应用
一.pandas的数据结构介绍 1. Series 1.1 Series是由一种类似于一维数组的对象,它由一组数据以及一组与之相关的数据索引构成.仅由一组数据可产生最简单的Series. from p ...
Python数据分析之pandas基本数据结构：Series、DataFrame
1引言本文总结Pandas中两种常用的数据类型: (1)Series是一种一维的带标签数组对象. (2)DataFrame,二维,Series容器 2 Series数组 2.1 Series数组构成 ...
Python之使用Pandas库实现MySQL数据库的读写
本次分享将介绍如何在Python中使用Pandas库实现MySQL数据库的读写.首先我们需要了解点ORM方面的知识. ORM技术对象关系映射技术,即ORM(Object-Relational ...
Pandas库之DataFrame
Pandas库之DataFrame 1 简介 DataFrame是Python中Pandas库中的一种数据结构,它类似excel,是一种二维表. 或许说它可能有点像matlab的矩阵,但是matlab ...
Python 数据分析：Pandas 缺省值的判断
Python 数据分析:Pandas 缺省值的判断背景我们从数据库中取出数据存入 Pandas None 转换成 NaN 或 NaT.但是,我们将 Pandas 数据写入数据库时又需要转换成 No ...
【Python学习笔记】Pandas库之DataFrame
1 简介 DataFrame是Python中Pandas库中的一种数据结构,它类似excel,是一种二维表. 或许说它可能有点像matlab的矩阵,但是matlab的矩阵只能放数值型值(当然matla ...

随机推荐

SSH2 框架下的分页
1.设计分页实体(pageBean) 这里我显示的是3-12页的方式: package cn.itcast.oa.domain; import java.util.List; /** * 封装分页信息 ...
Java内存分配
概述对从事C和C++的程序员来说,在内存管理方面,他们既是拥有最高权利的人,也是从事最基础工作的“劳动人民”. 而对于Java程序员来说,JVM自动进行内存管理,程序员不再需要为每一个new操作去写 ...
.htaccess应该放在哪里？
根据 Apache 官方的介绍,.htaccess 文件属于分布式配置文件,可以放置在网站 www 根目录的所有子目录.以及 www 根目录的上一级目录中,生效的路径总是当前目录及其所有子目录(可在文 ...
【USB多路电源】layout
USB多路电源的layout 图:第一次layout 缺点: 1.散,空间利用率不高: 2.不整齐: 3.没有符合左上进,右下出(当然也不必墨守): 4.输出排针没有放到最边上: 5.信号流向问题 6 ...
HDU 1561 树形DP入门
The more, The Better Time Limit: 6000/2000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Oth ...
Codeforces Round #379 (Div. 2) 解题报告
题目地址本次CF是在今天早上深夜进行,上午有课就没有直接参加.今天早上上课坐到后排参加了virtual participation.这次CF前面的题目都非常的水,不到10分钟就轻松过了前两题,比较郁 ...
Java中的异常处理
描述: 如果Java中的函数有可能抛出异常,则该异常要么被catch住,要么在声明函数时必须声明该函数体会throws exception. 处理的时候的流程是,当发生异常时,首先结束当前函数后续语句 ...
1、android源代码下载及目录分析，和eclipser的跟踪
1.在eclipse中跟踪源代码:假如对mainactivity.java里面的activity按Ctrl+鼠标左键(前提已经导入android源代码:方法1:在项目点击右键,然后找到properti ...
python import其他文件夹下的模块
模块的路径不在默认搜索路径中,需要在sys.path中添加 import syssys.path.append('需要模块的文件夹路径')
sqoop连接oracle与mysql&mariadb的错误
错误说明: 由于我的hadoop的集群是用cloudera manager在线自动安装的,因此他们的安装路径必须遵循cloudera的规则,这里只有查看cloudera的官方文档了,请参考:http: ...

python数据分析之pandas库的DataFrame应用二

python数据分析之pandas库的DataFrame应用二的更多相关文章

随机推荐

热门专题