python pandas 数据处理

pandas是基于numpy包扩展而来的，因而numpy的绝大多数方法在pandas中都能适用。

pandas中我们要熟悉两个数据结构Series 和DataFrame

Series是类似于数组的对象，它有一组数据和与之相关的标签组成。

import pandas as pd

object=pd.Series([2,5,8,9])

print(object)

结果为：

0 2
1 5
2 8
3 9
dtype: int64

结果中包含一列数据和一列标签
我们可以用values和index分别进行引用

print(object.values)

print(object.index)

结果为：

[2 5 8 9]
RangeIndex(start=0, stop=4, step=1)

我们还可以按照自己的意愿构建标签

object=pd.Series([2,5,8,9],index=['a','b','c','d'])

print(object)

结果为：

a 2
b 5
c 8
d 9
dtype: int64

我们还可以对序列进行运算

print(object[object>5])

结果为

c 8
d 9
dtype: int64

也可以把Series看成一个字典，使用in进行判断

print('a' in object)

结果为：

True

另外，值是不能直接被索引到的

print(2 in object)

结果为：

False

Series中的一些方法，

isnull或者notnull可以用于判断数据中缺失值情况

name或者index.name可以对数据进行重命名

DataFrame数据框，也是一种数据结构，和R中的数据框类似

data={'year':[2000,2001,2002,2003],

          'income':[3000,3500,4500,6000]}

data=pd.DataFrame(data)

print(data)

结果为：

income year
0 3000 2000
1 3500 2001
2 4500 2002
3 6000 2003

data1=pd.DataFrame(data,columns=['year','income','outcome'],

                      　　　 index=['a','b','c','d'])

print(data1)

结果为：

year income outcome
a 2000 3000 NaN
b 2001 3500 NaN
c 2002 4500 NaN
d 2003 6000 NaN

新增加列outcome在data中没有，则用na值代替

索引的几种方式

print(data1['year'])

print(data1.year)

两种索引是等价的，都是对列进行索引，结果为：

a 2000
b 2001
c 2002
d 2003
Name: year, dtype: int64

对行进行索引，则是另外一种形式

print(data1.ix['a'])

结果为：

year 2000
income 3000
outcome NaN
Name: a, dtype: object

print(data1[1:3])

或者也可以用切片的形式

结果为：

year income outcome
b 2001 3500 NaN
c 2002 4500 NaN

增加和删除列

data1['money']=np.arange(4)

增加列为money

year income outcome money
a 2000 3000 NaN 0
b 2001 3500 NaN 1
c 2002 4500 NaN 2
d 2003 6000 NaN 3

del data1['outcome']

删除列结果为：

year income money
a 2000 3000 0
b 2001 3500 1
c 2002 4500 2
d 2003 6000 3

pandas中的主要索引对象以及相对应的索引方法和属性

此外还有一个reindex函数可以重新构建索引

data={'year':[2000,2001,2002,2003],

　　　  'income':[3000,3500,4500,6000]}

data1=pd.DataFrame(data,columns=['year','income','outcome'],

index=['a','b','c','d'])

data2=data1.reindex(['a','b','c','d','e'])

print(data2)

结果为：

data2=data1.reindex(['a','b','c','d','e'],method='ffill')

print(data2)

使用方法后的结果为：

索引删除以及过滤等相关方法

 print(data1.drop(['a']))

结果为：

print(data1[data1['year']>2001])

结果为：

 print(data1.ix[['a','b'],['year','income']])

结果为：

print(data1.ix[data1.year>2000,:2])

结果为：

详细的索引过滤方法如下：

dataframe的算法运算

data={'year':[2000,2001,2002,2003],

'income':[3000,3500,4500,6000]}

data1=pd.DataFrame(data,columns=['year','income','outcome'],

index=['a','b','c','d'])

data2=pd.DataFrame(data,columns=['year','income','outcome'],

index=['a','b','c','d'])

data1['outcome']=range(1,5)

data2=data2.reindex(['a','b','c','d','e'])

print(data1.add(data2,fill_value=0))

结果为：

对dataframe进行排序

data=pd.DataFrame(np.arange(10).reshape((2,5)),index=['c','a'],

　　　　　　　　　　  columns=['one','four','two','three','five'])

print(data)

结果为：

print(data.sort_index())

结果为：

print(data.sort_index(axis=1))

结果为：

print(data.sort_values(by='one'))

结果为：

print(data.sort_values(by='one',ascending=False))

结果为：

这里是对结果进行降序排列

汇总以及统计描述

data=pd.DataFrame(np.arange(10).reshape((2,5)),index=['c','a'],

columns=['one','four','two','three','five'])

print(data.describe())

结果为：

print(data.sum())

结果为：

print(data.sum(axis=1))

结果为：

详细约简方法

python pandas 数据处理的更多相关文章

Python———pandas数据处理
pandas模块更高级的数据分析工具基于NumPy构建包含Series和DataFrame两种数据结构,以及相应方法调用方法:from pandas import Series, DataFra ...
Python——pandas数据处理（python programming）
Python空间数据处理环境搭
Python空间数据处理环境搭 Conda的下载和安装什么是Conda? 官方定义:Package, dependency and environment management for any la ...
Python Pandas的使用！！！！！详解
Pandas是一个基于python中Numpy模块的一个模块 Python在数据处理和准备⽅⾯⼀直做得很好,但在数据分析和建模⽅⾯就差⼀些.pandas帮助填补了这⼀空⽩,使您能够在Python中执 ...
python & pandas链接mysql数据库
Python&pandas与mysql连接 1.python 与mysql 连接及操作,直接上代码,简单直接高效: import MySQLdb try: conn = MySQLdb.con ...
Python pandas ERROR 2006 (HY000): MySQL server has gone away
之前在做python pandas大数据分析的时候,在将分析后的数据存入mysql的时候报ERROR 2006 (HY000): MySQL server has gone away 原因分析:在对百 ...
python地理数据处理库geopy
http://blog.csdn.net/pipisorry/article/details/52205266 python地理位置处理 python地理编码地址以及用来处理经纬度的库 GeoDjan ...
Python+Pandas 读取Oracle数据库
Python+Pandas 读取Oracle数据库 import pandas as pd from sqlalchemy import create_engine import cx_Oracle ...
看到篇博文，用python pandas改写了下
看到篇博文,https://blog.csdn.net/young2415/article/details/82795688 需求是需要统计部门礼品数量,自己简单绘制了个表格,如下: 大意是,每个部门 ...

随机推荐

linux 之 popen函数
描述 popen() 函数用创建管道的方式启动一个进程, 并调用 shell. 因为管道是被定义成单向的, 所以 type 参数只能定义成只读或者只写, 不能是两者同时, 结果流也 ...
SQL Server中日志
再谈SQL Server中日志的的作用简介之前我已经写了一个关于SQL Server日志的简单系列文章.本篇文章会进一步挖掘日志背后的一些概念,原理以及作用.如果您没有看过我之前的文章,请参阅: ...
StringEscapeUtils.unescapeHtml的使用
在做代码高亮时,从数据库中取出代码如下(节选): <pre class="brush: java;"> 需要的应该是<pre class=\"brush ...
<c:if>判断两个<c:forEach>里的数据是否相等
问题:两个<c:forEach>嵌套,里面循环的值和外面的值进行比较(里层里的PARENTID是否等于外层的ID),如果相等就显示. <c:forEach items="$ ...
JSP和JavaBean
JSP JSP全称是Java Server Pages.JSP实际上就是Servlet. JSP原理:JSP会被Tomcat翻译成一个Servlet JSP语法 1)JSP的Java脚本表达式作用: ...
WCF 学习笔记之异常处理
WCF 学习笔记之异常处理 1:WCF异常在配置文件 <configuration> <system.serviceModel> <behaviors> <s ...
JSTL（JSP Standard Tag Library ，JSP标准标签库)
JSTL标签之核心标签 JSTL(JSP Standard Tag Library ,JSP标准标签库)是一个实现 Web应用程序中常见的通用功能的定制标记库集,这些功能包括迭代和条件判断.数据管 ...
TOGAF架构内容框架之架构制品（上）
TOGAF架构内容框架之架构制品(上) 4. 架构制品(Architectural Artifacts) 架构制品是针对某个系统或解决方案的模型描述,与架构交付物和构建块相比,架构制品既不是架构开发方 ...
WebView 实现MiniBrowser
package org.hjw.minibrowser; import android.os.Bundle; import android.app.Activity; import android.v ...
poj1475Pushing Boxes
N - Pushing Boxes Time Limit:2000MS Memory Limit:131072KB 64bit IO Format:%I64d & %I64u ...

python pandas 数据处理

python pandas 数据处理的更多相关文章

随机推荐

热门专题