Pandas中的resample,重新采样,是对原样本重新处理的一个方法,是一个对常规时间序列数据重新采样和频率转换的便捷的方法。

降采样:高频数据到低频数据

升采样:低频数据到高频数据

主要函数:resample()(pandas对象都会有这个方法)

resample方法的参数

参数 说明
freq 表示重采样频率,例如‘M’、‘5min’,Second(15)
how=’mean’ 用于产生聚合值的函数名或数组函数,例如‘mean’、‘ohlc’、np.max等,默认是‘mean’,其他常用的值由:‘first’、‘last’、‘median’、‘max’、‘min’
axis=0 默认是纵轴,横轴设置axis=1
fill_method = None 升采样时如何插值,比如‘ffill’、‘bfill’等
closed = ‘right’ 在降采样时,各时间段的哪一段是闭合的,‘right’或‘left’,默认‘right’
label= ‘right’ 在降采样时,如何设置聚合值的标签,例如,9:30-9:35会被标记成9:30还是9:35,默认9:35
loffset = None 面元标签的时间校正值,比如‘-1s’或Second(-1)用于将聚合标签调早1秒
limit=None 在向前或向后填充时,允许填充的最大时期数
kind = None 聚合到时期(‘period’)或时间戳(‘timestamp’),默认聚合到时间序列的索引类型
convention = None 当重采样时期时,将低频率转换到高频率所采用的约定(start或end)。默认‘end’

首先创建一个Series,采样频率为一分钟。

  1. >>> index = pd.date_range('1/1/2000', periods=9, freq='T')
  2. >>> series = pd.Series(range(9), index=index)
  3. >>> series
  4. 2000-01-01 00:00:00 0
  5. 2000-01-01 00:01:00 1
  6. 2000-01-01 00:02:00 2
  7. 2000-01-01 00:03:00 3
  8. 2000-01-01 00:04:00 4
  9. 2000-01-01 00:05:00 5
  10. 2000-01-01 00:06:00 6
  11. 2000-01-01 00:07:00 7
  12. 2000-01-01 00:08:00 8
  13. Freq: T, dtype: int64

降低采样频率为三分钟

  1. >>> series.resample('3T').sum()
  2. 2000-01-01 00:00:00 3
  3. 2000-01-01 00:03:00 12
  4. 2000-01-01 00:06:00 21
  5. Freq: 3T, dtype: int64

降低采样频率为三分钟,但是每个标签使用right来代替left。请注意,bucket中值的用作标签。

  1. >>> series.resample('3T', label='right').sum()
  2. 2000-01-01 00:03:00 3
  3. 2000-01-01 00:06:00 12
  4. 2000-01-01 00:09:00 21
  5. Freq: 3T, dtype: int64

降低采样频率为三分钟,但是关闭right区间。

  1. >>> series.resample('3T', label='right', closed='right').sum()
  2. 2000-01-01 00:00:00 0
  3. 2000-01-01 00:03:00 6
  4. 2000-01-01 00:06:00 15
  5. 2000-01-01 00:09:00 15
  6. Freq: 3T, dtype: int64

增加采样频率到30秒

  1. >>> series.resample('30S').asfreq()[0:5] #select first 5 rows
  2. 2000-01-01 00:00:00 0
  3. 2000-01-01 00:00:30 NaN
  4. 2000-01-01 00:01:00 1
  5. 2000-01-01 00:01:30 NaN
  6. 2000-01-01 00:02:00 2
  7. Freq: 30S, dtype: float64

增加采样频率到30S,使用pad方法填充nan值。

  1. >>> series.resample('30S').pad()[0:5]
  2. 2000-01-01 00:00:00 0
  3. 2000-01-01 00:00:30 0
  4. 2000-01-01 00:01:00 1
  5. 2000-01-01 00:01:30 1
  6. 2000-01-01 00:02:00 2
  7. Freq: 30S, dtype: int64

增加采样频率到30S,使用bfill方法填充nan值。

  1. >>> series.resample('30S').bfill()[0:5]
  2. 2000-01-01 00:00:00 0
  3. 2000-01-01 00:00:30 1
  4. 2000-01-01 00:01:00 1
  5. 2000-01-01 00:01:30 2
  6. 2000-01-01 00:02:00 2
  7. Freq: 30S, dtype: int64

通过apply运行一个自定义函数

  1. >>> def custom_resampler(array_like):
  2. ... return np.sum(array_like)+5
  1. >>> series.resample('3T').apply(custom_resampler)
  2. 2000-01-01 00:00:00 8
  3. 2000-01-01 00:03:00 17
  4. 2000-01-01 00:06:00 26
  5. Freq: 3T, dtype: int64
出处:https://blog.csdn.net/wangshuang1631/article/details/52314944

pandas的resample重采样的更多相关文章

  1. Python数据分析(三)pandas resample 重采样

    下方是pandas中resample方法的定义,帮助文档http://pandas.pydata.org/pandas-docs/stable/timeseries.html#resampling中有 ...

  2. pandas之时间重采样笔记

    周期由高频率转向低频率称为降采样:例如5分钟股票交易数据转换为日交易数据 相反,周期也可以由低频转向高频称为升采样 其他重采样:例如每周三(W-WED)转换为每周五(W-FRI) import pan ...

  3. pandas 时间序列resample

    resample与groupby的区别:resample:在给定的时间单位内重取样groupby:对给定的数据条目进行统计 函数原型:DataFrame.resample(rule, how=None ...

  4. 重采样Resample 的一些研究记录。

    最近项目有需要重采样算法,先找了一下,主流的就是几个开源算法,Speex / Opus / ffmpeg / sox 1.最早的事Speex,算法源自CCRMA(Center for Computer ...

  5. 03. Pandas 2| 时间序列

    1.时间模块:datetime datetime模块,主要掌握:datetime.date(), datetime.datetime(), datetime.timedelta() 日期解析方法:pa ...

  6. Pandas v0.23.4手册汉化

    Pandas手册汉化 此页面概述了所有公共pandas对象,函数和方法.pandas.*命名空间中公开的所有类和函数都是公共的. 一些子包是公共的,其中包括pandas.errors, pandas. ...

  7. Pandas之DataFrame——Part 2

    ''' [课程2.] 时间模块:datetime datetime模块,主要掌握:datetime.date(), datetime.datetime(), datetime.timedelta() ...

  8. pandas 之 datetime 初识

    import numpy as np import pandas as pd 认识 Time series data is an impotant from of data in many diffe ...

  9. Pandas 时间序列处理

    目录 Pandas 时间序列处理 1 Python 的日期和时间处理 1.1 常用模块 1.2 字符串和 datetime 转换 2 Pandas 的时间处理及操作 2.1 创建与基础操作 2.2 时 ...

随机推荐

  1. Python:SQLMap源码精读—基于错误的盲注(error-based blind)

    目标网址 http://127.0.0.1/shentou/sqli-labs-master/Less-5/?id=1 Payload的生成 <test> <title>MyS ...

  2. xlwt set style making error: More than 4094 XFs (styles)

    使用Xlwt,当内容过多时,会报错:More than 4094 XFs (styles) 解决方法: wb = xlwt.Workbook(style_compression=2) 使用style_ ...

  3. Android开源系列:仿网易Tab分类排序控件实现

    前言 产品:网易新闻那个Tab排序好帅. 开发:哦~ 然后这个东东在几天后就出现了..... (PS:差不多一年没回来写博客了~~~~(>_<)~~~~,顺便把名字从 enjoy风铃 修改 ...

  4. 谈谈对JVM的理解

            JVM可谓是学习JAVA基础中的基础了,但仍有不少同学对JVM概念还是比较模糊,甚至没有听说过,对java的理解也只是在基础语法 层面,本文就将对JVM进行初步介绍,因篇幅所限,只能介 ...

  5. HDFS集群数据不均衡处理

    一.概述 公司使用是自己搭建的hadoop集群,版本2.7.3,最近发现出现了hdfs数据存储不均衡的现象,其中有一个datanode使用了65%,而有一个只使用了20%.hadoop集群使用的时间长 ...

  6. spring-boot-2.0.3应用篇 - shiro集成

    前言 上一篇:spring-boot-2.0.3源码篇 - 国际化,讲了如何实现国际化,实际上我工作用的模版引擎是freemaker,而不是thymeleaf,不过原理都是相通的. 接着上一篇,这一篇 ...

  7. 解决使用elementUI框架el-upload上传组件时session丢失问题

    在使用elementui框架上传组件的时候,出现session丢失,后端无法获取到sessionid,导致返回状态为未登陆 查看请求头缺少cookie值 上传组件代码: <el-upload c ...

  8. 如何在 Linux 服务器上部署多个 Tomcat

    开发管理项目时多多少少会遇到服务器不够用.一个项目分成多个子项目的情况,故研究了一下如何在一台服务器部署多个 Tomcat. 具体操作: 1.在 /tomcat/ 下部署多个 tomcat. 2.修改 ...

  9. JS截取字符串substr 和 substring方法的区别

    substr 方法 返回一个从指定位置开始的指定长度的子字符串. stringvar.substr(start [, length ]) 参数 stringvar 必选项.要提取子字符串的字符串文字或 ...

  10. 菜鸟入门【ASP.NET Core】10:Cookie-based认证实现

    准备工作 新建MVC项目,然后用VSCode打开 dotnet new mvc --name MvcCookieAuthSample 在Controllers文件夹下新建AdminController ...