链接：http://www.jb51.net/article/90946.htm

数据提取是分析师日常工作中经常遇到的需求。如某个用户的贷款金额，某个月或季度的利息总收入，某个特定时间段的贷款金额和笔数，大于5000元的贷款数量等等。本篇文章介绍如何通过python按特定的维度或条件对数据进行提取，完成数据提取需求。

准备工作

首先是准备工作，导入需要使用的库，读取并创建数据表取名为loandata。

import numpy as np

import pandas as pd

loandata=pd.DataFrame(pd.read_excel('loan_data.xlsx'))

设置索引字段

在开始提取数据前，先将member_id列设置为索引字段。然后开始提取数据。

1	`Loandata` `=` `loandata.set_index('member_id')`

按行提取信息
第一步是按行提取数据，例如提取某个用户的信息。下面使用ix函数对member_id为1303503的用户信息进行了提取。

1	`loandata.ix[1303503]`

按列提取信息

第二步是按列提取数据，例如提取用户工作年限列的所有信息，下面是具体的代码和提取结果，显示了所有用户的工作年龄信息。

1	`loandata.ix[:,'emp_length']`

按行与列提取信息

第三步是按行和列提取信息，把前面两部的查询条件放在一起，查询特定用户的特定信息，下面是查询member_id为1303503的用户的emp_length信息。

1	`loandata.ix[1303503,'emp_length']`

在前面的基础上继续增加条件，增加一行同时查询两个特定用户的贷款金额信息。具体代码和查询结果如下。结果中分别列出了两个用户的代码金额。

1	`loandata.ix[[1303503,1298717],'loan_amnt']`

在前面的代码后增加sum函数，对结果进行求和，同样是查询两个特定用户的贷款进行，下面的结果中直接给出了贷款金额的汇总值。

1	`loandata.ix[[1303503,1298717],'loan_amnt'].sum()`

除了增加行的查询条件以外，还可以增加列的查询条件，下面的代码中查询了一个特定用户的贷款金额和年收入情况，结果中分别显示了这两个字段的结果。

1	`loandata.ix[1303503,['loan_amnt','annual_inc']]`

多个列的查询也可以进行求和计算，在前面的代码后增加sum函数，对这个用户的贷款金额和年收入两个字段求和，并显示出结果。

1	`loandata.ix[1303503,['loan_amnt','annual_inc']].sum()`

提取特定日期的信息

数据提取中还有一种很常见的需求就是按日期维度对数据进行汇总和提取，如按月，季度的汇总数据提取和按特定时间段的数据提取等等。

设置索引字段
首先将索引字段改为数据表中的日期字段，这里将issue_d设置为数据表的索引字段。按日期进行查询和数据提取。

1	`loandata` `=` `loandata.set_index('issue_d')`

按日期提取信息
下面的代码查询了所有2016年的数据。

1	`loandata['2016']`

在前面代码的基础上增加月份，查询所有2016年3月的数据。

1	`loandata['2016-03']`

继续在前面代码的基础上增加日期，查询所有2016年6月16日的数据。

1	`loandata['2016-06-16']`

除了按单独日期查询以外，还可以按日期段进行数据查询，下面的代码中查询了所有2016年1月至5月的数据。下面显示了具体的查询结果，可以发现数据的日期都是在1-5月的，但是按日期维度显示的，这就需要我们对数据按月进行汇总。

1	`loandata['2016-01':'2016-05']`

按日期汇总信息

Pandas中的resample函数可以完成日期的聚合工作，包括按小时维度，日期维度，月维度，季度及年的维度等等。下面我们分别说明。首先是按周的维度对前面数据表的数据进行求和。下面的代码中W表示聚合方式是按周，how表示数据的计算方式，默认是计算平均值，这里设置为sum，进行求和计算。

1	`loandata.resample('W',how=sum).head(10)`

将W改为M，数据变成了按月聚合的方式。计算方式依然是求和。这里需要说明的是resample函数会显示出所有连续的时间段，例如前面按周的聚合操作会显示连续的周日期，这里的按月操作则会在结果中显示连续的月，如果某个时间段没有数据，会以NaN值显示。

1	`loandata.resample('M',how=sum)`

将前面代码中的M改为Q，则为按季度对数据进行聚合，计算方式依然为求和。从下面的数据表中看，日期显示的都是每个季度的最后一天，如果希望以每个季度的第一天显示，可以改为QS。

1	`loandata.resample('Q',how=sum)`

将前面代码中的Q改为A，就是按年对数据进行聚合，计算方式依然为求和。

1	`loandata.resample('A',how=sum)`

前面的方法都是对整个数据表进行聚合和求和操作，如果只需要对某一个字段的值进行聚合和求和，可以在数据表后增加列的名称。下面是将贷款金额字段按月聚合后求和，并用0填充空值。

1	`loandata['loan_amnt'].resample('M',how=sum).fillna(0)`

在前面代码的基础上再增加一个数值字段，并且在后面的计算方式中增加len用来计数。在下面的结果中分别对贷款金额和利息收入按月聚合，并进行求和和计数计算

1	`loandata[['loan_amnt','total_rec_int']].resample('M',how=[len,sum])`

有时我们需要只对某一时间段的数据进行聚合和计算，下面的代码中对2016年1月至5月的数据按月进行了聚合，并计算求和。用0填充空值。

1	`loandata['2016-01':'2016-05'].resample('M',how=sum).fillna(0)`

或者只对某些符合条件的数据进行聚合和计算。下面的代码中对于贷款金额大于5000的按月进行聚合，并计算求和。空值以0进行填充。

1	`loandata[loandata['loan_amnt']>5000].resample('M',how=sum).fillna(0)`

除了按周，月，季度和年以外，resample函数还可以按以下方式对日期进行聚合。下面给出了具体的对应表和说明。

原文链接：http://bluewhale.cc/2016-08-22/data-extraction-using-python.html

【学习】Python进行数据提取的方法总结【转载】的更多相关文章

用 Python 排序数据的多种方法
用 Python 排序数据的多种方法目录 [Python HOWTOs系列]排序 Python 列表有内置就地排序的方法 list.sort(),此外还有一个内置的 sorted() 函数将一个可迭 ...
Python爬虫10-页面解析数据提取思路方法与简单正则应用
GitHub代码练习地址:正则1:https://github.com/Neo-ML/PythonPractice/blob/master/SpiderPrac15_RE1.py 正则2:match. ...
python爬虫数据提取之bs4的使用方法
Beautiful Soup的使用 1.下载 pip install bs4 pip install lxml # 解析器官方推荐 2.引用方法 from bs4 import BeautifulS ...
python爬虫数据抓取方法汇总
概要:利用python进行web数据抓取方法和实现. 1.python进行网页数据抓取有两种方式:一种是直接依据url链接来拼接使用get方法得到内容,一种是构建post请求改变对应参数来获得web返 ...
Python——爬虫——数据提取
一.XML数据提取 (1)定义:XML指可扩展标记语言.标记语言,标签需要我们自行定义 (2)设计宗旨:是传输数据,而非显示数据,具有自我描述性 (3)节点关系: 父:每个元素及属性都有一个父. ...
python之数据库内置方法以及pymysql的使用
一.mysql内置方法 1)视图的概念和用法 .什么是视图视图就是通过查询得到一张虚拟表,然后保存下来,下次用的直接使用即可 .为什么要用视图如果要频繁使用一张虚拟表,可以不用重复查询 .如何用视 ...
提高python处理数据的效率方法
处理大数据的方法有很多,目前我知道就这么多,后面会持续更新: 一.将数据分批次读取 csv格式是常见的数据存储方式,对于我们普通人而言易于读写.此外,在pandas中有pd.read_csv()函数可 ...
python学习12-反射判断函数与方法（转载）
一.三个内置函数 1.issubclass(a, b) 判断a类是否是b类的子类 class Foo: pass class Zi(Foo): pass class Sun(Zi): passpri ...
Android学习笔记-保存数据的实现方法1
Android开发中,有时候我们需要对信息进行保存,那么今天就来介绍一下,保存文件到内存,以及SD卡的一些操作,及方法,供参考. 第一种,保存数据到内存中: //java开发中的保存数据的方式 pub ...

随机推荐

java项目---用java实现简单TCP服务器监听(3星)
---------------------------------------------服务端----------------------------------------------- 1 pa ...
cordova闪屏插件插件使用：cordova-plugin-splashscreen
欢迎页本地插件,默认建议包含.启动本地应用时显示指定的图片(启动页) 1. 添加插件:cordova plugin add cordova-plugin-splashscreen 2. 调用方法:
【druid 】数据库连接池
一.数据库连接池架构二.数据库连接池的过滤器 spi的思想,加载配置文件的Filter druid.filters.default=com.alibaba.druid.filter.stat.Sta ...
Linux----------nfs服务器的搭建及常识
一.nfs简介 nfs(network file system)即网络文件系统,是FreeBSD支持的文件系统中的一种,它允许网络中的计算机之间通过TCP/IP网络共享资源. nfs主要适用用linu ...
linux 解压缩总结
总结1.*.tar 用 tar –xvf 解压2.*.gz 用 gzip -d或者gunzip 解压3.*.tar.gz和*.tgz 用 tar –xzf 解压4.*.bz2 用 bzip2 -d或者 ...
layui select配合input实现动态模糊搜索
功能需求:select框可以自己输入,就是在下拉列表里找不到自己想要的选项就可以自己输入,同时还要支持模糊匹配功能 html代码: 样式: <style> .select-search-i ...
PRBS
PRBS是Pseudo Random Binary Sequence的缩写,即“伪随机二进制序列”的意思.PRBS码具有“随机”特性,是因为在PRBS码流中,二进制数“0”和“1”是随机出现的,但是它 ...
java 类的初始化顺序
有父类 1. 父类static成员变量 2. 父类static块 3. 父类非static成员 4. 父类非static块 5. 父类构造方法子类,也按照1-5顺序执行无父类 1. static成 ...
vs2010直接调用av_register_all crash问题
需要做一个视频导出的功能,通过ffmpeg来实现,vs2010里面引用ffmpeg库的 dll 和 lib 文件第一步av_register_all就直接crash了, 查了近半天的时间,都快崩溃了 ...
windows下 go安装qt绑定
1.下载安装QT 离线版QT地址: https://download.qt.io/official_releases/qt/5.11/5.11.1/qt-opensource-windows-x86 ...

【学习】Python进行数据提取的方法总结【转载】