1. 引言

前一篇介绍了Pandas实现简单的SQL操作，本篇中将主要介绍一些相对复杂一点的操作。为了方便后面实操，先给出一份简化版的设备统计数据：

0	android	NLL	387546520	2099457911

0	ios	NLL	52877990	916421755

1	android	魅族	8995958	120369597

1	android	酷派	9915906	200818172

1	android	三星	16500493	718969514

1	android	小米	23933856	290787590

1	android	华为	26706736	641907761

1	ios	苹果	52877990	916421755

2	android	小米-小米4	2786675	55376581

2	android	魅族-m2-note	4642112	130984205

2	android	OPPO-A31	4893428	62976997

2	ios	苹果-iPhone-6s	5728609	99948716

其中，第一列表示维度组合编号，第二列表示操作系统类型，第三列为维度值（NLL表示缺失，即第一行、第二行表示操作系统的统计，其余表示厂商或机型），第三列、第四列分别表示UV、PV；且字段之间为\t分隔。读取该文件为DataFrame：

import pandas as pd

df = pd.read_csv(path, names=['id', 'os', 'dim', 'uv', 'pv'], sep='\t')

2. 实战

Add

在原dataframe上，增加一行数据；可通过dataframe的append函数来追加：

import numpy as np

row_df = pd.DataFrame(np.array([['2', 'ios', '苹果-iPad 4', 3287509, 32891811]]), columns=['id', 'os', 'dim', 'uv', 'pv'])

df = df.append(row_df, ignore_index=True)

增加一列数据，则比较简单：

df['time'] = '2016-07-19'

To Dict

关于android、ios的PV、UV的dict：

def where(df, column_name, id_value):

    df = df[df[column_name] == id_value]

    return df

def to_dict(df):

    """

    {"pv" or "uv" -> {"os": os_value}}

    :return: dict

    """

    df = where(df, 'id', 0)

    df_dict = df.set_index('os')[['uv', 'pv']].to_dict()

    return df_dict

Top

group某列后的top值，比如，android、ios的UV top 2的厂商：

def group_top(df, group_col, sort_col, top_n):

    """

    get top(`sort_col`) after group by `group_col`

    :param df: dataframe

    :param group_col: string, column name

    :param sort_col: string, column name

    :param top_n: int

    :return: dataframe

    """

    return df.assign(rn=df.sort_values([sort_col], ascending=False)

                     .groupby(group_col)

                     .cumcount() + 1) \

        .query('rn < ' + str(top_n + 1)) \

        .sort_values([group_col, 'rn'])

全局top值加上group某列后的top值，并有去重：

def top(df, group_col, sort_col, top_n):

    """overall top and group top"""

    all_top_df = df.nlargest(top_n, columns=sort_col)

    grouped_top_df = group_top(df, group_col, sort_col, top_n)

    grouped_top_df = grouped_top_df.ix[:, 0:-1]

    result_df = pd.concat([all_top_df, grouped_top_df]).drop_duplicates()

    return result_df

排序编号

对某列排序后并编号，相当于给出排序名次。比如，对UV的排序编号：

df['rank'] = df['uv'].rank(method='first', ascending=False).apply(lambda x: int(x))

Left Join

Pandas的left join对NULL的列没有指定默认值，下面给出简单的实现：

def left_join(left, right, on, right_col, default_value):

    df = pd.merge(left, right, how='left', on=on)

    df[right_col] = df[right_col].map(lambda x: default_value if pd.isnull(x) else x)

    return df

自定义

对某一列做较为复杂的自定义操作，比如，厂商的UV占比：

def percentage(part, whole):

    return round(100*float(part)/float(whole), 2)

os_dict = to_dict(df)

all_uv = sum(os_dict['uv'].values())

df = where(df, 'id', 1)

df['per'] = df.apply(lambda r: percentage(r['uv'], all_uv), axis=1)

重复值

某列的重复值的行：

duplicate = df.duplicated(subset=columns, keep=False)

写MySQL

Pandas的to_sql函数支持Dataframe直接写MySQL数据库。在公司开发时，常常会有办公网与研发网是不通的，Python的sshtunnel模块提供ssh通道，便于入库debug。

import MySQLdb

from sshtunnel import SSHTunnelForwarder

with SSHTunnelForwarder(('porxy host', port),

                        ssh_password='os passwd',

                        ssh_username='os user name',

                        remote_bind_address=('mysql host', 3306)) as server:

    conn = MySQLdb.connect(host="127.0.0.1", user="mysql user name", passwd="mysql passwd",

                           db="db name", port=server.local_bind_port, charset='utf8')

    df.to_sql(name='tb name', con=conn, flavor='mysql', if_exists='append', index=False)

【Python实战】Pandas：让你像写SQL一样做数据分析（二）的更多相关文章

【Python实战】Pandas：让你像写SQL一样做数据分析（一）
1. 引言 Pandas是一个开源的Python数据分析库.Pandas把结构化数据分为了三类: Series,1维序列,可视作为没有column名的.只有一个column的DataFrame: Da ...
【Python项目实战】Pandas：让你像写SQL一样做数据分析（一）
1. 引言 Pandas是一个开源的Python数据分析库.Pandas把结构化数据分为了三类: Series,1维序列,可视作为没有column名的.只有一个column的DataFrame: Da ...
Pandas：让你像写SQL一样做数据分析
1. 引言 Pandas是一个开源的Python数据分析库.Pandas把结构化数据分为了三类: Series,1维序列,可视作为没有column名的.只有一个column的DataFrame: Da ...
【Pandas教程】像写SQL一样用Pandas～
写在最前 Python在数据分析领域有三个必须需要熟悉的库,分别是pandas,numpy和matplotlib,如果排个优先级的话,我推荐先学pandas. numpy主要用于数组和矩阵的运算,一般 ...
Python 数据分析：让你像写 Sql 语句一样，使用 Pandas 做数据分析
Python 数据分析:让你像写 Sql 语句一样,使用 Pandas 做数据分析一.加载数据 import pandas as pd import numpy as np url = ('http ...
Java开发者写SQL时常犯的10个错误
首页所有文章资讯 Web 架构基础技术书籍教程我要投稿更多频道 » - 导航条 - 首页所有文章资讯 Web 架构基础技术书籍教程我要投稿更多频道 » - iOS ...
Python利用pandas处理Excel数据的应用
Python利用pandas处理Excel数据的应用最近迷上了高效处理数据的pandas,其实这个是用来做数据分析的,如果你是做大数据分析和测试的,那么这个是非常的有用的!!但是其实我们平时在做 ...
python实战：用70行代码写了一个山炮计算器！
python实战训练:用70行代码写了个山炮计算器! 好了...好了...各位因为我是三年级而发牢骚的各位伙伴们,我第一次为大家插播了python的基础实战训练.这个,我是想给,那些python基础一 ...
python实战博客
2018-10-31 更新Logging日志记录以及异常捕获感谢廖大教程.Python实战直接在闲置的服务器上开发.阿里云Centos 6.8 64位. 1 搭建开发环境 Python 环境是Py ...

随机推荐

SQL初步知识点
varchar(n) 长度为 n 个字节的可变长度且非 Unicode 的字符数据.n 必须是一个介于 1 和 8,000 之间的数值.存储大小为输入数据的字节的实际长度,而不是 n 个字节. nva ...
Event,delegate,handler之间的关系
在C#或者说.Net的事件处理机制中,有三个关键的概念 - 事件(Event),委托(Delegate)和处理器(Handler),另外在面向对象的背景中,还有另外两个概念 - 发送者(Sender) ...
拥抱.NET Core，学习.NET Core的基础知识补遗
前言 .NET Core的新特性之一就是跨平台,但由于对之前框架的兼容导致编写一个.NET Core类库变得相当复杂,主要体现为相当多的框架目标和支持平台,今天我们就对.NET Core的跨平台特性进 ...
Javascript设置对象属性为"只读"
有时为了保护某些属性,让其无法被更改,我们会把他们设置为常量. 在某些语言里面,也许会用const来实现这样的功能.本文讲述如何在Javascript中实现这样的功能. 方法一: var myObje ...
在.NET Core中遭遇循环依赖问题"A circular dependency was detected"
今天在将一个项目迁移至ASP.NET Core的过程中遭遇一个循环依赖问题,错误信息如下: A circular dependency was detected for the service of ...
浅析UPnP协议
摘要:文章介绍了UPnP结构规范和开发流程,指出:UP nP协议使所有联网的设备实现互联,设备工作不需要传统的驱动程序,便可以实现设备间的相互控制. 关键词:UPnP协议:开发流程:电子技术:工作 ...
Bootstrap 3的box-sizing样式导致UEditor控件的图片无法正常缩放
UEditor组件是百度提供的一套开源的web在线所见即所得富文本编辑器,具有轻量,可定制,注重用户体验等特点,基于MIT协议,功能很强大.最近在使用的过程中发现其中上传的图片(或者插入已有的表情包图 ...
[大数据之Sqoop] —— 什么是Sqoop?
介绍 sqoop是一款用于hadoop和关系型数据库之间数据导入导出的工具.你可以通过sqoop把数据从数据库(比如mysql,oracle)导入到hdfs中:也可以把数据从hdfs中导出到关系型数据 ...
JMeter--一、安装JMeter
Apache JMeter是Apache组织开发的基于Java的接口和性能测试工具. 作用: 1.能够对HTTP和FTP服务器进行压力和性能测试, 也可以对任何数据库进行同样的测试(通过JDBC). ...
CI Weekly #4 | 不同规模的团队，如何做好持续集成？
CI Weekly 围绕『软件工程效率提升』进行一系列技术内容分享,包括国内外持续集成.持续交付,持续部署.自动化测试. DevOps 等实践教程.工具与资源,以及一些工程师文化相关的程序员 Ti ...

【Python实战】Pandas：让你像写SQL一样做数据分析（二）