1. 引言

Pandas是一个开源的Python数据分析库。Pandas把结构化数据分为了三类：

Series，1维序列，可视作为没有column名的、只有一个column的DataFrame；
DataFrame，同Spark SQL中的DataFrame一样，其概念来自于R语言，为多column并schema化的2维结构化数据，可视作为Series的容器（container）；
Panel，为3维的结构化数据，可视作为DataFrame的容器；

DataFrame较为常见，因此本文主要讨论内容将为DataFrame。DataFrame的生成可通过读取纯文本、Json等数据来生成，亦可以通过Python对象来生成：

import pandas as pd

import numpy as np

df = pd.DataFrame({'total_bill': [16.99, 10.34, 23.68, 23.68, 24.59],

                   'tip': [1.01, 1.66, 3.50, 3.31, 3.61],

                   'sex': ['Female', 'Male', 'Male', 'Male', 'Female']})

对于DataFrame，我们可以看到其固有属性：

# data type of columns

df.dtypes

# indexes

df.index

# return pandas.Index

df.columns

# each row, return array[array]

df.values

# a tuple representing the dimensionality of df

df.shape

.index，为行索引
.columns，为列名称（label）
.dtype，为列数据类型

2. SQL操作

官方Doc给出了部分SQL的Pandas实现，在此基础上本文给出了一些扩充说明。以下内容基于Python 2.7 + Pandas 0.18.1的版本。

select

SQL中的select是根据列的名称来选取；Pandas则更为灵活，不但可根据列名称选取，还可以根据列所在的position选取。相关函数如下：

loc，基于列label，可选取特定行（根据行index）；
iloc，基于行/列的position；

print df.loc[1:3, ['total_bill', 'tip']]

print df.loc[1:3, 'tip': 'total_bill']

print df.iloc[1:3, [1, 2]]

print df.iloc[1:3, 1: 3]

at，根据指定行index及列label，快速定位DataFrame的元素；
iat，与at类似，不同的是根据position来定位的；

print df.at[3, 'tip']

print df.iat[3, 1]

ix，为loc与iloc的混合体，既支持label也支持position；

print df.ix[1:3, [1, 2]]

print df.ix[1:3, ['total_bill', 'tip']]

此外，有更为简洁的行/列选取方式：

print df[1: 3]

print df[['total_bill', 'tip']]

# print df[1:2, ['total_bill', 'tip']]  # TypeError: unhashable type

where

Pandas实现where filter，较为常用的办法为df[df[colunm] boolean expr]，比如：

print df[df['sex'] == 'Female']

print df[df['total_bill'] > 20]

# or

print df.query('total_bill > 20')

在where子句中常常会搭配and, or, in, not关键词，Pandas中也有对应的实现：

# and

print df[(df['sex'] == 'Female') & (df['total_bill'] > 20)]

# or

print df[(df['sex'] == 'Female') | (df['total_bill'] > 20)]

# in

print df[df['total_bill'].isin([21.01, 23.68, 24.59])]

# not

print df[-(df['sex'] == 'Male')]

print df[-df['total_bill'].isin([21.01, 23.68, 24.59])]

# string function

print df = df[(-df['app'].isin(sys_app)) & (-df.app.str.contains('^微信\d+$'))]

对where条件筛选后只有一行的dataframe取其中某一列的值，其两种实现方式如下：

total = df.loc[df['tip'] == 1.66, 'total_bill'].values[0]

total = df.get_value(df.loc[df['tip'] == 1.66].index.values[0], 'total_bill')

distinct

drop_duplicates根据某列对dataframe进行去重：

df.drop_duplicates(subset=['sex'], keep='first', inplace=True)

包含参数：

subset，为选定的列做distinct，默认为所有列；
keep，值选项{'first', 'last', False}，保留重复元素中的第一个、最后一个，或全部删除；
inplace ，默认为False，返回一个新的dataframe；若为True，则返回去重后的原dataframe

group

group一般会配合合计函数（Aggregate functions）使用，比如：count、avg等。Pandas对合计函数的支持有限，有count和size函数实现SQL的count：

print df.groupby('sex').size()

print df.groupby('sex').count()

print df.groupby('sex')['tip'].count()

对于多合计函数，

select sex, max(tip), sum(total_bill) as total

from tips_tb

group by sex;

实现在agg()中指定dict：

print df.groupby('sex').agg({'tip': np.max, 'total_bill': np.sum})

# count(distinct **)

print df.groupby('tip').agg({'sex': pd.Series.nunique})

as

SQL中使用as修改列的别名，Pandas也支持这种修改：

# first implementation

df.columns = ['total', 'pit', 'xes']

# second implementation

df.rename(columns={'total_bill': 'total', 'tip': 'pit', 'sex': 'xes'}, inplace=True)

其中，第一种方法的修改是有问题的，因为其是按照列position逐一替换的。因此，我推荐第二种方法。

join

Pandas中join的实现也有两种：

# 1.

df.join(df2, how='left'...)

# 2.

pd.merge(df1, df2, how='left', left_on='app', right_on='app')

第一种方法是按DataFrame的index进行join的，而第二种方法才是按on指定的列做join。Pandas满足left、right、inner、full outer四种join方式。

order

Pandas中支持多列order，并可以调整不同列的升序/降序，有更高的排序自由度：

print df.sort_values(['total_bill', 'tip'], ascending=[False, True])

top

对于全局的top：

print df.nlargest(3, columns=['total_bill'])

对于分组top，MySQL的实现（采用自join的方式）：

select a.sex, a.tip

from tips_tb a

where (

    select count(*)

    from tips_tb b

    where b.sex = a.sex and b.tip > a.tip

) < 2

order by a.sex, a.tip desc;

Pandas的等价实现，思路与上类似：

# 1.

df.assign(rn=df.sort_values(['total_bill'], ascending=False)

          .groupby('sex')

          .cumcount()+1)\

    .query('rn < 3')\

    .sort_values(['sex', 'rn'])

# 2.

df.assign(rn=df.groupby('sex')['total_bill']

          .rank(method='first', ascending=False)) \

    .query('rn < 3') \

    .sort_values(['sex', 'rn'])

replace

replace函数提供对dataframe全局修改，亦可通过where条件进行过滤修改（搭配loc）：

# overall replace

df.replace(to_replace='Female', value='Sansa', inplace=True)

# dict replace

df.replace({'sex': {'Female': 'Sansa', 'Male': 'Leone'}}, inplace=True)

# replace on where condition

df.loc[df.sex == 'Male', 'sex'] = 'Leone'

自定义

除了上述SQL操作外，Pandas提供对每列/每一元素做自定义操作，为此而设计以下三个函数：

map(func)，为Series的函数，DataFrame不能直接调用，需取列后再调用；
apply(func)，对DataFrame中的某一行/列进行func操作；
applymap(func)，为element-wise函数，对每一个元素做func操作

print df['tip'].map(lambda x: x - 1)

print df[['total_bill', 'tip']].apply(sum)

print df.applymap(lambda x: x.upper() if type(x) is str else x)

3. 实战

环比增长

现有两个月APP的UV数据，要得到月UV环比增长；该操作等价于两个Dataframe left join后按指定列做减操作：

def chain(current, last):

    df1 = pd.read_csv(current, names=['app', 'tag', 'uv'], sep='\t')

    df2 = pd.read_csv(last, names=['app', 'tag', 'uv'], sep='\t')

    df3 = pd.merge(df1, df2, how='left', on='app')

    df3['uv_y'] = df3['uv_y'].map(lambda x: 0.0 if pd.isnull(x) else x)

    df3['growth'] = df3['uv_x'] - df3['uv_y']

    return df3[['app', 'growth', 'uv_x', 'uv_y']].sort_values(by='growth', ascending=False)

差集

对于给定的列，一个Dataframe过滤另一个Dataframe该列的值；相当于集合的差集操作：

def difference(left, right, on):

    """

    difference of two dataframes

    :param left: left dataframe

    :param right: right dataframe

    :param on: join key

    :return: difference dataframe

    """

    df = pd.merge(left, right, how='left', on=on)

    left_columns = left.columns

    col_y = df.columns[left_columns.size]

    df = df[df[col_y].isnull()]

    df = df.ix[:, 0:left_columns.size]

    df.columns = left_columns

    return df

如需转载，请注明作者及出处.

作者：Treant

出处：http://www.cnblogs.com/en-heng/

Pandas：让你像写SQL一样做数据分析的更多相关文章

【Python实战】Pandas：让你像写SQL一样做数据分析（二）
1. 引言前一篇介绍了Pandas实现简单的SQL操作,本篇中将主要介绍一些相对复杂一点的操作.为了方便后面实操,先给出一份简化版的设备统计数据: 0 android NLL 387546520 2 ...
【Python实战】Pandas：让你像写SQL一样做数据分析（一）
1. 引言 Pandas是一个开源的Python数据分析库.Pandas把结构化数据分为了三类: Series,1维序列,可视作为没有column名的.只有一个column的DataFrame: Da ...
【Python项目实战】Pandas：让你像写SQL一样做数据分析（一）
1. 引言 Pandas是一个开源的Python数据分析库.Pandas把结构化数据分为了三类: Series,1维序列,可视作为没有column名的.只有一个column的DataFrame: Da ...
【Pandas教程】像写SQL一样用Pandas～
写在最前 Python在数据分析领域有三个必须需要熟悉的库,分别是pandas,numpy和matplotlib,如果排个优先级的话,我推荐先学pandas. numpy主要用于数组和矩阵的运算,一般 ...
Python 数据分析：让你像写 Sql 语句一样，使用 Pandas 做数据分析
Python 数据分析:让你像写 Sql 语句一样,使用 Pandas 做数据分析一.加载数据 import pandas as pd import numpy as np url = ('http ...
（摘至）程序员老鸟写sql语句的经验之谈
做管理系统的,无论是bs结构的还是cs结构的,都不可避免的涉及到数据库表结构的设计,sql语句的编写等.因此在开发系统的时候,表结构设计是否合理,sql语句是否标准,写出的sql性能是否优化往往会成为 ...
Java 程序员在写 SQL 时常犯的 10 个错误
Java程序员编程时需要混合面向对象思维和一般命令式编程的方法,能否完美的将两者结合起来完全得依靠编程人员的水准: 技能(任何人都能容易学会命令式编程) 模式(有些人用“模式-模式”,举个例子,模式可 ...
程序员老鸟写sql语句的经验之谈
做管理系统的,无论是bs结构的还是cs结构的,都不可避免的涉及到数据库表结构的设计,sql语句的编写等.因此在开发系统的时候,表结构设计是否合理,sql语句是否标准,写出的sql性能是否优化往往会成为 ...
写sql语句注意事项
做管理系统的,无论是bs结构的还是cs结构的,都不可避免的涉及到数据库表结构的设计,sql语句的编写等.因此在开发系统的时候,表结构设计是否合理,sql语句是否标准,写出的sql性能是否优化往往会成为 ...

随机推荐

Mac 常用软件下载及使用教程地址推荐
知您网: http://www.zhinin.com Xclient:http://xclient.info/?t=40707b872b81127fdfd1dc4700d1a155c12f35bd 音 ...
mybatis--Mapper 常见报错总结(持续总结)
本文版权归远方的风lyh和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 1.The content of elements must consist of well-f ...
（转）MySQL触发器trigger示例详解
一.什么是触发器触发器是与表有关的数据库对象,在满足定义条件时触发,并执行触发器中定义的语句集合.触发器的这种特性可以协助应用在数据库端确保数据的完整性. 举个例子,比如你现在有两个表[用户表]和[ ...
biztalk rosettanet 自定义 pip code
USE [BTARNDATA] GO /****** Object: StoredProcedure [dbo].[proc_GetActivityStatus] Script Date: 09/16 ...
HDU 1079 Calendar Game（规律博弈）
题目链接:https://cn.vjudge.net/problem/HDU-1079 题目: Adam and Eve enter this year’s ACM International Col ...
分布式版本控制系统GIT的使用
一.什么是Git Git是一个分布式版本控制系统,Git 和其他版本控制系统的主要差别在于,Git 只关心文件数据的整体是否发生变化,而大多数其他系统则只关心文件内容的具体差异(如CVS.Subver ...
5步搭建GO环境
Easy Go Programming Setup for Windows Dec 23, 2014 I’ve had to do this more than once recently, so I ...
C# 函数式编程：LINQ
一直以来,我以为 LINQ 是专门用来对不同数据源进行查询的工具,直到我看了这篇十多年前的文章,才发现 LINQ 的功能远不止 Query.这篇文章的内容比较高级,主要写了用 C# 3.0 推出的 L ...
H指数
H指数是用来综合衡量学者发表论文的数量和质量的指标,若某学者共发表N篇论文,H指数是指存在h 篇论文至少每篇有h 引用量,剩下的N-h篇中,每篇都不超过h引用量计算H指数的方法:1.排序法思路:先将 ...
(3)Microsoft office Word 2013版本操作入门_段落设定
1.查看文件: 打开word查看左下角会显示 word一共有多少页,当前第几页,共多少字等,如下图所示 2.word快速翻页: Ctrl+PageDown 向下翻页, Ctrl+PageUp 向上 ...

Pandas：让你像写SQL一样做数据分析