pandas教程

　　对pandas做最简单的介绍，针对初学者。

　　一、引入相关模块模块

 import numpy as np

 import pandas as pd

 import matplotlib.pyplot as plt

　　二、对象创建

　　2.1 创建一个Series。

 '''

  Series(data,index,dtype,copy)

     data:array-like,dict, or scalar value

     index:array-like or index(1d)

     dtype:numpy.dtype or None

     copy:boolean, default False

 '''

 '''结果：

 0    1.0

 1    3.0

 2    5.0

 3    NaN

 4    6.0

 5    8.0

 dtype: float64

 '''

 s = pd.Series([1,3,5,np.nan,6,8])

　　2.2 创建DataFrame。数据使用numpy的array，索引index使用datetime，列名使用标签

 '''

 DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',

                '2013-01-05', '2013-01-06'],

               dtype='datetime64[ns]', freq='D')

 '''

 dates = pd.date_range('', periods=6)

 '''

 A         B         C         D

 2013-01-01  0.469112 -0.282863 -1.509059 -1.135632

 2013-01-02  1.212112 -0.173215  0.119209 -1.044236

 2013-01-03 -0.861849 -2.104569 -0.494929  1.071804

 2013-01-04  0.721555 -0.706771 -1.039575  0.271860

 2013-01-05 -0.424972  0.567020  0.276232 -1.087401

 2013-01-06 -0.673690  0.113648 -1.478427  0.524988

 '''

 df = pd.DataFrame(np.random.randn(6,4), index=dates, columns=list('ABCD'))

　　2.3 通过一个字典的数据创建一个dataFrame

 '''

 A          B    C  D      E    F

 0  1.0 2013-01-02  1.0  3   test  foo

 1  1.0 2013-01-02  1.0  3  train  foo

 2  1.0 2013-01-02  1.0  3   test  foo

 3  1.0 2013-01-02  1.0  3  train  foo

 '''

 df2 = pd.DataFrame({ 'A' : 1.,'B' : pd.Timestamp(''),'C' : pd.Series(1,index=list(range(4)),dtype='float32'),'D' : np.array([3] * 4,dtype='int32'),'E' ：pd.Categorical(["test","train","test","train"]),'F' : 'foo' })

　　三、取数据

　　3.1 取前几行或者最后几行的数据

df = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list('ABCD'))

df.head()

df.tail()

　　3.2 显示index、column、或者数据

df.index

df.columns

df.values

　　3.3 显示数据的一些统计数据

 '''

               A         B         C         D

 count  6.000000  6.000000  6.000000  6.000000

 mean   0.073711 -0.431125 -0.687758 -0.233103

 std    0.843157  0.922818  0.779887  0.973118

 min   -0.861849 -2.104569 -1.509059 -1.135632

 25%   -0.611510 -0.600794 -1.368714 -1.076610

 50%    0.022070 -0.228039 -0.767252 -0.386188

 75%    0.658444  0.041933 -0.034326  0.461706

 max    1.212112  0.567020  0.276232  1.071804

 '''

 df.describe()

　　3.4 矩阵转置

 df.T

　　3.5 根据某一维度进行排序

'''

对维度1的索引做降序排序

'''

df.sort_index(axis=1, ascending=False)

　　3.6 对数据值做排序

'''

                   A         B         C         D

2013-01-03 -0.861849 -2.104569 -0.494929  1.071804

2013-01-04  0.721555 -0.706771 -1.039575  0.271860

2013-01-01  0.469112 -0.282863 -1.509059 -1.135632

2013-01-02  1.212112 -0.173215  0.119209 -1.044236

2013-01-06 -0.673690  0.113648 -1.478427  0.524988

2013-01-05 -0.424972  0.567020  0.276232 -1.087401

'''

df.sort_values(by='B')

　　四、数据选择

　　4.1、根据维度上的值取数据

　　4.1.1选择一个单独的列，df是Series对象

'''

2013-01-01    0.469112

2013-01-02    1.212112

2013-01-03   -0.861849

2013-01-04    0.721555

2013-01-05   -0.424972

2013-01-06   -0.673690

Freq: D, Name: A, dtype: float64

'''

print(df['A']) #等同于 df.A

　　4.1.2类似[]一样做切割的操作

'''

                   A         B         C         D

2013-01-01  0.469112 -0.282863 -1.509059 -1.135632

2013-01-02  1.212112 -0.173215  0.119209 -1.044236

2013-01-03 -0.861849 -2.104569 -0.494929  1.071804

'''

df[0:3] #等同于df['2013-01-01':'2013-01-04']

　　4.1.3对于二维，根据纵轴上的值取数据

'''

A    0.469112

B   -0.282863

C   -1.509059

D   -1.135632

Name: 2013-01-01 00:00:00, dtype: float64

'''

df.loc['2013-01-01']

　　4.1.4[]的切割和轴上取值的综合使用

'''

A         B

2013-01-01  0.469112 -0.282863

2013-01-02  1.212112 -0.173215

2013-01-03 -0.861849 -2.104569

2013-01-04  0.721555 -0.706771

2013-01-05 -0.424972  0.567020

2013-01-06 -0.673690  0.113648

'''

df.loc[:,['A','B']]

　　4.1.5[]的切割和轴上取值的综合使用的进阶版

'''

                   A         B

2013-01-02  1.212112 -0.173215

2013-01-03 -0.861849 -2.104569

2013-01-04  0.721555 -0.706771

'''

df.loc['':'',['A','B']] #20130102会自动格式化

　　4.1.6相关的额外的用例

'''

A    1.212112

B   -0.173215

Name: 2013-01-02 00:00:00, dtype: float64

'''

df.loc['',['A','B']]

'''

0.46911229990718628

'''

df.loc[dates[0],'A']  # dates[0]等价于 '20130101'

　　4.2、根据位置取数据

'''

A    0.721555

B   -0.706771

C   -1.039575

D    0.271860

Name: 2013-01-04 00:00:00, dtype: float64

'''

df.iloc[3]

'''

 　　　　　　　　A         B

2013-01-04  0.721555 -0.706771

2013-01-05 -0.424972  0.567020

'''

df.iloc[3:5,0:2]

'''

　　　　　　　　A         C

2013-01-02  1.212112  0.119209

2013-01-03 -0.861849 -0.494929

2013-01-05 -0.424972  0.276232

'''

df.iloc[[1,2,4],[0,2]]

'''

　　　　　　　　　　A         B         C         D

2013-01-02  1.212112 -0.173215  0.119209 -1.044236

2013-01-03 -0.861849 -2.104569 -0.494929  1.071804

'''

df.iloc[1:3,:]

'''

　　　　　　　　B         C

2013-01-01 -0.282863 -1.509059

2013-01-02 -0.173215  0.119209

2013-01-03 -2.104569 -0.494929

2013-01-04 -0.706771 -1.039575

2013-01-05  0.567020  0.276232

2013-01-06  0.113648 -1.478427

'''

df.iloc[:,1:3]

'''

-0.17321464905330858

'''

df.iloc[1,1]

　　五、数据选择的中布尔条件的筛选用法

'''

　　　　　　　　　　　A          B         C         D

2013-01-01  0.469112 -0.282863 -1.509059 -1.135632

2013-01-02  1.212112 -0.173215  0.119209 -1.044236

2013-01-04  0.721555 -0.706771 -1.039575  0.271860

'''

df[df.A > 0]  #针对A 条件成立的数据显示，不成立的数据过滤

'''

　　　　　　　　　　A         B         C         D

2013-01-01  0.469112       NaN       NaN       NaN

2013-01-02  1.212112       NaN  0.119209       NaN

2013-01-03       NaN       NaN       NaN  1.071804

2013-01-04  0.721555       NaN       NaN  0.271860

2013-01-05       NaN  0.567020  0.276232       NaN

2013-01-06       NaN  0.113648       NaN  0.524988

'''

df[df > 0]  # 对整个数据做判断，成立的显示，不成立的显示nan

# 复制

df2 = df.copy()

# 增加一个列

df2['E'] = ['one', 'one','two','three','four','three']

'''

　　　　　　　　　　A         B         C         D      E

2013-01-01  0.469112 -0.282863 -1.509059 -1.135632    one

2013-01-02  1.212112 -0.173215  0.119209 -1.044236    one

2013-01-03 -0.861849 -2.104569 -0.494929  1.071804    two

2013-01-04  0.721555 -0.706771 -1.039575  0.271860  three

2013-01-05 -0.424972  0.567020  0.276232 -1.087401   four

2013-01-06 -0.673690  0.113648 -1.478427  0.524988  three

'''

print(df2)

'''

　　　　　　　　　　A         B         C         D     E

2013-01-03 -0.861849 -2.104569 -0.494929  1.071804   two

2013-01-05 -0.424972  0.567020  0.276232 -1.087401  four

'''

df2[df2['E'].isin(['two','four'])]  # isin()方法用于过滤，显示条件成立的结果

　　六、赋值（setting）

　　6.1 增加一列

# 新列的值

s = pd.Series([1,2,3,4,5,6], index=pd.date_range('',periods=6))

'''

　　　　　　　　　　  A         B          C        D   E

2013-01-01 -0.330600 -1.326650  1.956782  0.328470  1

2013-01-02  0.173402 -0.373742 -0.121202  0.382443  2

2013-01-03 -0.579300 -0.381537 -2.955372 -0.557058  3

2013-01-04  1.358076  0.907546  0.629780 -1.579100  4

2013-01-05  2.269737  1.224567  0.591703 -1.022714  5

2013-01-06  0.966249 -0.205897 -0.003112  1.925219  6

'''

df['E'] = s  # 对新列赋值

　　6.2 增加一行，具体使用拼接的或者添加（concat、append）

'''

　　　　　　　　　　A         B         C         D         E

2013-01-07  1.105365  0.027329  2.210636  1.497980  0.761118

2013-01-08  0.387425 -1.506767  0.416878 -1.479918 -0.716363

'''

su_df = pd.DataFrame(np.random.randn(2,5), index=pd.date_range('',periods=2),columns=list('ABCDE'))

'''

　　　　　　　　　　A         B         C         D         E

2013-01-01 -2.476921 -0.961169  0.063422  2.010977  1.000000

2013-01-02  1.060736  0.265674  0.092731 -0.423340  2.000000

2013-01-03  0.036753  1.757448  0.987356  0.344027  3.000000

2013-01-04 -0.429803  0.783153 -0.124511 -0.678557  4.000000

2013-01-05 -0.266420 -3.515056 -0.138616  1.244520  5.000000

2013-01-06  0.217777 -0.327220  0.266039  0.672814  6.000000

2013-01-07  1.105365  0.027329  2.210636  1.497980  0.761118

2013-01-08  0.387425 -1.506767  0.416878 -1.479918 -0.716363

'''

df.append(su_df)

　　6.3 根据刻度赋值

df.at['','A'] = 0

　　6.4 根据位置赋值

df.iat[0,1] = 0

　　6.5 为某一列赋值

df.loc[:,'E'] = np.array([5] * len(df))

　　七、其他对数据处理的函数

'''

dates = ['2013-01-01','2013-01-02','2013-01-03','2013-01-04',...]

A         B         C  D    F    E

2013-01-01  0.000000  0.000000 -1.509059  5  NaN  1.0

2013-01-02  1.212112 -0.173215  0.119209  5  1.0  1.0

2013-01-03 -0.861849 -2.104569 -0.494929  5  2.0  NaN

2013-01-04  0.721555 -0.706771 -1.039575  5  3.0  NaN

''' df1 = df.reindex(index=dates[0:4], columns=list(df.columns) + ['E']) # 可以对原有的数据进行增删改，返回一个经过增删改后新的数据'''

A         B         C         D    E

2013-01-01 -2.476921 -0.961169  0.063422  2.010977  1.0

2013-01-02  1.060736  0.265674  0.092731 -0.423340  1.0

2013-01-03  0.036753  1.757448  0.987356  0.344027  1.0

2013-01-04 -0.429803  0.783153 -0.124511 -0.678557  NaN

2013-01-05 -0.266420 -3.515056 -0.138616  1.244520  NaN

2013-01-06  0.217777 -0.327220  0.266039  0.672814  NaN

'''

df

'''

A         B         C         D    E

2013-01-01 -2.476921 -0.961169  0.063422  2.010977  1.0

2013-01-02  1.060736  0.265674  0.092731 -0.423340  1.0

2013-01-03  0.036753  1.757448  0.987356  0.344027  1.0

'''

df.dropna(how='any')

'''

A         B         C         D      E

2013-01-01 -2.476921 -0.961169  0.063422  2.010977    1.0

2013-01-02  1.060736  0.265674  0.092731 -0.423340    1.0

2013-01-03  0.036753  1.757448  0.987356  0.344027    1.0

2013-01-04 -0.429803  0.783153 -0.124511 -0.678557  777.0

2013-01-05 -0.266420 -3.515056 -0.138616  1.244520  777.0

2013-01-06  0.217777 -0.327220  0.266039  0.672814  777.0

'''

df.fillna(value=5)  # 对为NAN的值进行填充

　　八、使用回调函数处理数据

df.apply(np.cumsum)

df.apply(lambda x : x.max() - x.min())

　　九、对key和value的处理函数

'''

0    4

1    2

2    1

3    2

4    6

5    4

6    4

7    6

8    4

9    4

'''

s = pd.Series(np.random.randint(0, 7, size=10))

'''

4    5

6    2

2    2

1    1

dtype: int64

'''

s.value_counts()  # 统计对应的值出现的次数

pandas教程的更多相关文章

Python 数据处理库pandas教程（最后附上pandas_datareader使用实例）
0 简单介绍 pandas是一个Python语言的软件包,在我们使用Python语言进行机器学习编程的时候,这是一个非常常用的基础编程库.本文是对它的一个入门教程. pandas提供了快速,灵活和富有 ...
pandas教程1：pandas数据结构入门
pandas是一个用于进行python科学计算的常用库,包含高级的数据结构和精巧的工具,使得在Python中处理数据非常快速和简单.pandas建造在NumPy之上,它使得以NumPy为中心的应用很容 ...
数据分析之pandas教程------数据处理
目录 1 数据合并 1.1 实现数据库表join功能 1.2 实现union功能 2 数据转换 2.1 轴旋转 2.2 数据转换 2.2.1 去重 2.2.2 对某一列运用函数 2.2 ...
数据分析之pandas教程-----概念篇
目录 1 pandas基本概念 1.1 pandas数据结构剖析 1.1.1 Series 1.1.2 DataFrame 1.1.3 索引 1.1.4 pandas基本操作 1.1.4. ...
Pandas教程目录
Pandas数据结构 Pandas系列 Pandas数据帧(DataFrame) Pandas面板(Panel) Pandas基本功能 Pandas描述性统计 Pandas函数应用 Pandas重建索 ...
【Pandas教程】像写SQL一样用Pandas～
写在最前 Python在数据分析领域有三个必须需要熟悉的库,分别是pandas,numpy和matplotlib,如果排个优先级的话,我推荐先学pandas. numpy主要用于数组和矩阵的运算,一般 ...
ApacheCN Pandas 教程集
Pandas 秘籍零.前言一.Pandas 基础二.数据帧基本操作三.开始数据分析四.选择数据子集五.布尔索引六.索引对齐七.分组以进行汇总,过滤和转换八.将数据重组为整齐的表格九 ...
Pandas系列教程——写在前面
之前搜pandas资料,发现互联网上并没有成体系的pandas教程,于是乎突然有个爱迪页儿,打算自己把官网的文档加上自己用pandas的理解,写成一个系列的教程, 巩固自己,方便他人接下来就干这件事 ...
Pandas基础教程
pandas教程更多地可以参考教程安装 pip install pandas pandas的类excel操作,超级方便: import pandas as pd dates = pd.date_ ...

随机推荐

2017ecjtu-summer training #4 UESTC 1584
此题链接 http://acm.uestc.edu.cn/#/problem/show/1584 此题和hdu1541几乎完全一样,我们要先对坐标排序,再进行操作. hdu1541题解 http:// ...
MyBatis工作原理
Mybatis工作原理: 我们的应用程序通过mybatis提供的api,增删改查方法来访问数据库,api底层调用了jdbc ,只不过mybatis对jdbc的封装是不完全封装,里面的sql语句需要我们 ...
ThinkPHP 下载、导入、导出功能的设计与实现
下载: 1.引入命名空间: use Org\Net\Http; 2.在入口文件中设置根目录: //定义根目录的绝对地址 define('ROOT',str_replace("\\" ...
Oracle_insert_delete_update
Oracle_insert_delete_update --复制表格的结构 create table temp as (select * from emp where 1=2); select * f ...
Weblogic jsp页面编译出错，Weblogic jsp编译异常
Weblogic jsp页面编译出错,Weblogic jsp编译异常 ======================== 蕃薯耀 2018年1月29日 http://www.cnblogs.com/f ...
J.U.C FutureTask之源码解析
通过直接继承Thread, 实现Runnable接口来创建线程.但这两种方式都有一种缺陷:在执行完任务之后无法获得执行结果. 如果需要获得执行结果,就必须通过共享变量或者使用线程通信的方式来达到效果, ...
poweshell批量删除某类型文件
错误方法 rm *.o" -recurse 按照提示,rm(remove-item)是可以递归删除子文件夹的.但是这个方法确实无效.在他们的示例里面找到说明: --------------- ...
修真院java后端工程师学习课程--任务1(day four)
今天学习的是spring框架,内容主要有: spring的概念,主要是做什么的: Spring是一个基于IOC和AOP的结构J2EE系统的框架 IOC 反转控制是Spring的基础,Inversio ...
postgres的initdb解析——从一次插件升级失败说起
我们公司基于postgres开发了一款数据库产品,不用说我们对OSS的源码做了改动,并且也集成和自己编写了一些插件.因此,当postgresql和相关插件升级时,我们也需要将升级反应到自己的产品中去, ...
mysql-SQL优化总结
1.查询首先考虑在where和order by设计的列上建立索引,尽量避免全表扫描. 2.尽量避免在where子句中对字段进行null值判断,否则将导致引擎放弃使用索引而进行全表扫描. select ...

pandas教程

pandas教程的更多相关文章

随机推荐

热门专题