10 Minutes to pandas

摘要

　一、创建对象　　　　

　　二、查看数据

　　三、选择和设置

　　四、缺失值处理

　　五、相关操作

　　六、聚合

　　七、重排(Reshaping)
　　八、时间序列
　　九、Categorical类型

　十、画图
十一、导入和保存数据

内容

# coding=utf-8
import pandas as pd
import numpy as np
### 一、创建对象
## 1.可以传递一个list对象创建一个Series,Pandas会默认创建整型索引
s = pd.Series([1, 3, 5, np.nan, 6, 8])
# print s

## 2.通过传递一个numpy array,时间索引以及列标签来创建一个DataFrame
dates = pd.date_range('20130101', periods=6)
# print dates
df = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list("ABCD"))
# print df
## 3.通过传递一个能够被转换成类似序列结构的字典对象来创建一个DataFrame
df2 = pd.DataFrame({"A": 1, "B": pd.Timestamp('20130102'), "C": pd.Series(1, index=list(range(4)), dtype="float32"),
                      "D": np.array([3] * 4, dtype="int32"), "E": pd.Categorical(["test", "train", "test", "train"]),
                      "F": "foo"})
# print df2

### 二、查看数据
## 1.查看frame中头部和尾部的行,默认5行
# print df.head()
# print df.tail(3)

## 2.显示索引，列和底层的numpy数据
# print df.index
# print df.columns
# print df.values

## 3.describe()函数对于数据的款素统计汇总,python中方法不能省略圆括号
# print df.describe()

## 4.对数据的转置
# print df.T

## 5.按轴（列）进行排序
# print df.sort_index(axis=1,ascending=False)

## 6.按值进行排序,建议使用sort_values(by=)
# print df.sort(columns="B")
# print df.sort_values(by="B")

### 三、选择和设置
## 获取1.选择一个单独的列,这将会返回一个Series,等同于df.A
# print df["A"]

## 获取2.通过[]进行选择，这将会对行进行切片
# print df[0:3][1:2]
# print df[0:3]

##上面的方法是通过下标[]进行访问，下面可以.loc[]来对指定便签进行选择
##通过标签选择：1.使用便签来获取一个交叉的区域
# print df.loc[ dates[0] ]

##通过标签选择：2.通过标签来在多个轴上进行选择
# print df.loc[ :,["A","B"] ]

##通过标签选择：3.标签切片
# print df.loc[ "20130102":"20130104",["A","B"] ]

##通过标签选择：4.对于返回的对象进行维度缩减
# print df.loc["20130102",["A","B"]]

##通过标签选择：5.获取一个标量
# print df.loc[ dates[0],"A" ]

##通过标签选择：6.快速访问一个标量(at方法)
# print df.at[ dates[0],"A" ]

##通过位置选择：1.通过传递数值进行位置选择（选择的是行）
# print df.iloc[3]

##通过位置选择：2.通过数值进切片
# print df.iloc[3:5,0:2]

##通过位置选择：3.通过指定一个位置的列表
# print df.iloc[ [1,2,3],[0,2] ]

##通过位置选择：4.对行进行切片
# print df.iloc[1:3,:]

##通过位置选择：5.对列进行切片
# print df.iloc[:,1:3]

##通过位置选择:6.获取特定的值
# print df.iloc[1,1]
# print df.iat[1,1]

##可以使用逻辑表达式来选择指定的数据框
##布尔索引：1.使用一个单独列的值来选择数据
# print df[df.A > 0]

##布尔索引：2.使用where操作来选择数据
# print df[ df > 0]

##布尔索引：3.使用isin()方法来过滤
# print df2[df2["E"].isin( ["test"] )]

##设置：通过一个numpy数组设置一组新值
# df.loc[ :,"E" ] = np.array( [5]*len(df) )
# print df

## reindex对索引进行改变/新增/删除(未赋值就是pd.nan)
df1 = df.reindex(index=dates[0:4], columns=list(df.columns) + ["E"])
# print df1

### 四、缺失值处理（pandas使用np.nan代替缺失值，默认不会计算）
## 1.去掉包含缺失值的行
# print df1.dropna(how="any")

## 2.对缺失值进行填充
# print df1.fillna(value=5)

## 3.判断缺失值
# print  pd.isnull()

## 五、相关操作
##apply(对数据应用函数）
# print df.apply(np.cumsum)##累积和
# print df.apply(lambda x:x.max - x.min) ##x代表当前列的一个标量

##值计数器
# print s.value_counts()

##六、聚合（aggregate）
## 1.contat(拼接,默认是全外联)
# piece = [ df[:2],df[2:4],df[4:] ]
# print pd.concat(piece)  ##默认axis=0是上下连接
# piece = [ df.loc[ :,["A","B"] ],df.loc[ :,["C","D"] ] ]
# print pd.concat(piece,axis=1) ##1是左右连接

## 2.联表操作（join,merge）
# left = pd.DataFrame( {
#     "key":["foo","foo1"],"lval":[1,2]
# } )
# right = pd.DataFrame( {
#     "key":["foo","foo2"],"rval":[1,2]
# } )
# print pd.merge(left,right,how="inner",left_on=left.key,right_on=right.key) ##内联
# print pd.merge(left,right,how="left",left_on=left.key,right_on=right.key)  ##左联
# print pd.merge(left,right,how="right",left_on=left.key,right_on=right.key) ##右联
# print pd.merge(left,right,how="outer",left_on=left.key,right_on=right.key)  ##全外联
# print left.set_index("key").join([right.set_index("key")], how="outer")  ##join根据索引连接

## 3.append(追加)
# print df.append(other=[df,df]) ##只能上下联接

## 4.分组
# print df.groupby("A").sum()
# print df.groupbyoupby( ["A","B"] ).sum()  ##层次索引
# print df.groupby(['A', 'B'])['C'].mean()
# print df.groupby(df["A"])

### 七、Reshaping
## 1.Stack
# tuples = list(zip(*[['bar', 'bar', 'baz', 'baz',
#                      'foo', 'foo', 'qux', 'qux'],
#                     ['one', 'two', 'one', 'two',
#                     'one', 'two', 'one', 'two']]))
# index = pd.MultiIndex.from_tuples(tuples, names=['first', 'second'])
# df = pd.DataFrame(np.random.randn(8, 2), index=index, columns=['A', 'B'])
# df2 = df[:4]
# print df2
#The stack function “compresses” a level in the DataFrame’s columns to produce either:
# A Series, in the case of a simple column Index
# A DataFrame, in the case of a MultiIndex in the columns
# stacked = df2.stack()
# print stacked
# print stacked.unstack()
# print stacked.unstack(1)
# print stacked.unstack(0)

## 2.数据透视表
# print pd.pivot_table(df,values="D",index=["A","B"],columns="C")

### 八、时间序列
# rng = pd.date_range("1/1/2012", periods=100, freq="S")
# ts = pd.Series(np.random.randn(0, 500, len(rng)), index=rng)
# print ts.resample("5Min",how="sum")

### 九、Categorical类型
详见此处
### 十、画图
详见此处

### 十一、导入和保存数据
df.to_csv("data.csv")
csv = df.read_csv("data.csv")

官网文档此处

10 Minutes to pandas的更多相关文章

《10 minutes to pandas》（转）
原文出处:http://pandas.pydata.org/pandas-docs/stable/10min.html 10 Minutes to pandas This is a short int ...
10 Minutes to pandas中文版
本文是对pandas官方网站上<10 Minutes to pandas>的一个简单的翻译,原文在这里.这篇文章是对pandas的一个简单的介绍,详细的介绍请参考:Cookbook .习惯 ...
Cookbook:pandas的学习之路——10 Minutes to pandas
按照pandas官网上10 Minutes to pandas的快速练习: 一 .对象创建: 导入练习所需要的工具包: 通过列表中的值创建序列Series,pandas在创建序列的同时会默认为列表中值 ...
10分钟学习pandas
10 Minutes to pandas This is a short introduction to pandas, geared mainly for new users. You can se ...
10分钟了解 pandas - pandas官方文档译文 [原创]
10 Minutes to pandas 英文原文:https://pandas.pydata.org/pandas-docs/stable/10min.html 版本:pandas 0.23.4 采 ...
python 10分钟入门pandas
本文是对pandas官方网站上<10 Minutes to pandas>的一个简单的翻译,原文在这里.这篇文章是对pandas的一个简单的介绍,详细的介绍请参考:Cookbook .习惯 ...
The replication agent has not logged a progress message in 10 minutes.
打开Replication Monitor,在Subscription Watch List Tab中,发现有大量的status= “Performance critical” 的黄色Warning, ...
十分钟入门less(翻译自：Learn lESS in 10 Minutes(or less))
十分钟入门less(翻译自:Learn lESS in 10 Minutes(or less)) 注:本文为翻译文章,因翻译水平有限,难免有缺漏不足之处,可查看原文. 我们知道写css代码是非常枯燥的 ...
jenkins git can't work ERROR: Timeout after 10 minutes ERROR: Error fetching remote repo 'origin'
Started by user Allen Running as Allen Building remotely on MISTestSrv2 (MIS) in workspace C:\jenkin ...

随机推荐

C# 文章导航
1. C#相关文章 1.1 C# 基础(一) 访问修饰符.ref与out.标志枚举等等 1.2 C# 基础(二) 类与接口 1.3 C# DateTime日期格式化 1.4 C# DateTime与时 ...
Solr_全文检索引擎系统
Solr介绍: Solr 是Apache下的一个顶级开源项目,采用Java开发,它是基于Lucene的全文搜索服务.Solr可以独立运行在Jetty.Tomcat等这些Servlet容器中. Solr ...
干货分享：SQLSERVER使用裸设备
干货分享:SQLSERVER使用裸设备这篇文章也适合ORACLE DBA和MYSQL DBA 阅读裸设备适用于Linux和Windows 在ORACLE和MYSQL里也是支持裸设备的!! 介绍大 ...
OpenCASCADE Job - dimue
PHP之用户验证和标签推荐的简单使用
本篇主要是讲解一些最简单的验证知识效果图 bookmark_fns.php <?php require_once('output_fns.php'); require_once('db_fns ...
2013 Asia Changsha Regional Contest---Josephina and RPG(DP)
题目链接 http://acm.hdu.edu.cn/showproblem.php?pid=4800 Problem Description A role-playing game (RPG and ...
iOS之UILabel的自动换行
思路: 获取UILabel的frame大小获取UILabel的字体大小获取UILabel的文本内容根据上面的3部分数据,计算文本显示区域大小根据4计算的大小,实时改变UILabel的frame ...
HashMap的工作原理
HashMap的工作原理 HashMap的工作原理是近年来常见的Java面试题.几乎每个Java程序员都知道HashMap,都知道哪里要用HashMap,知道HashTable和HashMap之间 ...
如何开发FineReport的自定义控件？
FineReport作为插件化开发的报表软件,有些特殊需求的功能需要自己开发,开发的插件包帆软官方有提提供,可以去帆软论坛上找,本文将主要介绍如何开发一个自定义控件,这里讲讲方法论. 第一步:实例化一 ...
在ASP.NET MVC 4 on Mono中使用OracleClient in CentOS 6.x的问题记录
在ASP.NET MVC 4 on Mono中使用OracleClient in CentOS 6.x的问题记录前言最近有个Web项目,业务功能不复杂,但是这个客户(某政府部门)有两个硬性要求:1 ...

10 Minutes to pandas

摘要

一、创建对象

二、查看数据

三、选择和设置

四、缺失值处理

五、相关操作

六、聚合

七、重排(Reshaping) 八、时间序列 九、Categorical类型

十、画图 十一、导入和保存数据

内容

10 Minutes to pandas的更多相关文章

随机推荐

热门专题

　一、创建对象　　　　

　　二、查看数据

　　三、选择和设置

　　四、缺失值处理

　　五、相关操作

　　六、聚合

　　七、重排(Reshaping)
　　八、时间序列
　　九、Categorical类型

　十、画图
十一、导入和保存数据