Pandas系列之入门篇

简介

pandas 是 python用来数据清洗、分析的包，可以使用类sql的语法方便的进行数据关联、查询，属于内存计算范畴，

效率远远高于硬盘计算的数据库存储。另外pandas还提供了大数据存储的API——HDFStore，来对接HDF5。

安装

1.pandas 利用豆瓣源，速度快

pip install pandas numpy -i http://pypi.douban.com/simple --trusted-host pypi.douban.com

2.pytables

pip install tables

3.hdf5

Download: https://www.hdfgroup.org/downloads/hdf5/source-code/

./configure

make

make check

make install

使用案例

上网流量数据：源数据以CSV文件实时生成，通过监听文件的方式做到一旦有新的CSV生成就进入数据处理流程。

总的流程大致分5部，分别是：读取CSV、数据清洗、数据分析、数据统计、存储HDF5。

关于下面用到的一些字段的解释说明：

user: 用户
tm_type: 终端类型
serv: 一级app分类
app: 二级app分类
record_time: 记录产生的时间
up_flux: 上行流量
down_flux: 下行流量

pandas api document: https://pandas.pydata.org/pandas-docs/stable/api.html?highlight=hdfstore

1.读取CSV

filename_src = 'xxx.csv'

col_list = ['user', 'tm_type', 'serv', 'app', 'record_time', 'up_flux', 'down_flux']

# \x01表示空格 16进制

df_flux = pd.read_csv(filename_src, sep='\x01', error_bad_lines=False, index_col=False, usecols=[3, 10, 11, 12, 15, 16, 17], names=col_list)

2.数据清洗

"""

    data clean

"""

# remove null data

df_flux.dropna(inplace=True)

# remove duplicates

df_flux.drop_duplicates(inplace=True)

数据分析

"""

    data analysis

    inner join v_student_net(inner join)

    refer column: user

"""

conn = MySQLdb.connect(host, user, passwd, database, charset='utf8')

cur = conn.cursor()

sql = 'select outid, username from v_student_net'

cur.execute(sql)

results = cur.fetchall()

df_student_net = pd.DataFrame(list(results), columns=['outid', 'user'])

# inner join df_flux, v_student_net

df_flux = pd.merge(df_flux, df_student_net, on='user')

数据统计

"""

    data statistics

    group by: record_date, outid, serv, app

    aggregate by: up_flux, down_flux

    sort by: down_flux with desc

"""

# as_index=False，default True

grouped = df_flux.groupby(['record_date', 'outid', 'serv', 'app'], as_index=False)

df_flux = grouped.agg({'up_flux': 'sum', 'down_flux': 'sum'}).sort_values('down_flux', ascending=False)

存储HDF5

"""

    store in hdf5

"""

hdf5_filepath = 'xxx.h5'

store = pd.HDFStore(hdf5_filepath, complevel=1, complib='bzip2')

store.put('flux', df_flux, format='table', append=True, data_columns=True)

总结

从上面的例子可以看到，pandas处理数据是相当的简洁明了，存储hdf5更是两句话就搞定。当然这里面会有相当多注意的细节，稍有不慎就会导致意想不到的结果，我将会在下一篇介绍。

要学好pandas，api文档必须要精通！

Pandas系列之入门篇的更多相关文章

Pandas系列之入门篇——HDF5
Pandas系列之入门篇--HDF5 简介 HDF5(层次性数据格式)作用于大数据存储,其高效的压缩方式节约了不少硬盘空间,同时也给查询效率带来了一定的影响, 压缩效率越高,查询效率越低.pandas ...
Python系列之入门篇——HDFS
Python系列之入门篇--HDFS 简介 HDFS (Hadoop Distributed File System) Hadoop分布式文件系统,具有高容错性,适合部署在廉价的机器上.Python ...
Python系列之入门篇——MYSQL
Python系列之入门篇--MYSQL 简介 python提供了两种mysql api, 一是MySQL-python(不支持python3),二是PyMYSQL(支持python2和python3) ...
【转】C# 串口操作系列(1) -- 入门篇，一个标准的，简陋的串口例子。
C# 串口操作系列(1) -- 入门篇,一个标准的,简陋的串口例子. 标签: c#objectnewlineexceptionbytestring 2010-05-17 01:10 117109人阅读 ...
C# 串口操作系列(2) -- 入门篇，为什么我的串口程序在关闭串口时候会死锁？
第一篇文章我相信很多人不看都能做的出来,但是,用过微软SerialPort类的人,都遇到过这个尴尬,关闭串口的时候会让软件死锁.天哪,我可不是武断,算了.不要太绝对了.99.9%的人吧,都遇到过这个问 ...
Python系列之入门篇——python2.7.13安装
Python2.7.13 安装说明以下所有操作都基于centos6.9 1. Issue zlib zlib-devel是安装setuptools依赖的模块,需要在安装python之前先安装这两个 ...
Docker系列之入门篇
Dcoker是什么? 概述 Docker 是世界领先的软件容器平台.开发人员利用 Docker 可以消除协作编码时“在我的机器上可正常工作”的问题.运维人员利用 Docker 可以在隔离容器中并行运行 ...
Python系列之入门篇——pytables及其客户端
pytables及其客户端查看 pytables # ubuntu sudo apt-get install python-tables pip install flask flask-httpaut ...
Redis系列一 - 入门篇
问:项目中为何要选用Redis? 答:传统的关系型数据库(如MySQL)已经不适用所有的场景了,比如美云销抢单活动的库存扣减,APP首页的访问流量高峰等等,都容易把数据库打崩,所以引入了缓存中间件,目 ...

随机推荐

在无人值守程序（服务）中调用Microsoft Graph
作者:陈希章发表于 2017年5月31日什么是无人值守程序(服务) 我在此前用了几篇文章分别介绍了在桌面应用程序(控制台),Web应用程序(ASP.NET MVC),以及PowerSehll脚本中 ...
MPSOC之9——host、embeded间tftp、nfs、ftp环境搭建
tftp 可传输单个文件,不能传文件夹需要通过命令传输文件,略显复杂 ==一般调试kernel时,用uboot通过tftp方式启动,不用每次都烧写存储介质== nfs 在host linux(ubu ...
mysql千万级数据表，创建表及字段扩展的几条建议
一:概述当我们设计一个系统时,需要考虑到系统的运行一段时间后,表里数据量大约有多少,如果在初期,就能估算到某几张表数据量非常庞大时(比如聊天消息表),就要把表创建好,这篇文章从创建表,增加数据,以及 ...
八.利用springAMQP实现异步消息队列的日志管理
经过前段时间的学习和铺垫,已经对spring amqp有了大概的了解.俗话说学以致用,今天就利用springAMQP来完成一个日志管理模块.大概的需求是这样的:系统中有很多地方需要记录操作日志,比如登 ...
scala写算法-快排
快排算法很经典,今天用scala的函数式思维来整理一下并实现: def qsort(list: List[Int]):List[Int]=list match { case Nil=>Nil c ...
bzoj 3894: 文理分科
Description 文理分科是一件很纠结的事情!(虽然看到这个题目的人肯定都没有纠结过) 小P所在的班级要进行文理分科.他的班级可以用一个n*m的矩阵进行描述,每个格子代表一个同学的座位. ...
uniq 命令详解
作用: 报告或忽略文件中的重复行,一般与sort 连用. 选项:-c count 在每列前显示该行重复出现的次数 -d repeated, 仅显示重复出现的行列 -f skip fie ...
JavaUtil_06_DES加解密工具
一.示例 CommonUtil.java package com.ray.test.des; import java.io.ByteArrayOutputStream; import java.io. ...
Mysql使用alias 防止对数据的误操作
在我们操作数据库的时候,尤其是执行,update,delete操作的时候,都存在着误操作的风险,今天发现一种方法,能避免这一问题,就是使用Mysql的alias . 1.查看Mysql帮助 #mysq ...
Sql Server 里的向上取整、向下取整、四舍五入取整的实例！
http://blog.csdn.net/dxnn520/article/details/8454132 =============================================== ...

Pandas系列之入门篇

Pandas系列之入门篇

简介

安装

使用案例

总结

Pandas系列之入门篇的更多相关文章

随机推荐

热门专题