Tensorflow 时间序列数据的处理

数据集简介

数据集描述了多个投资项目在一个时间序列下的300个匿名特征（"f_0"至"f_299"）以及一个目标特征（"target"）。要求根据后续时间节点的匿名特征预测目标特征。

本文的主要目标是构建特定长度的时间序列RNN网络训练和测试集。

训练集和验证集、测试集的划分

由于给出的要求是预测后续时间点的目标特征，模型的建立是基于过去的模式在将来依然存在。因此，对于这样的模型，跨时间划分训练集、验证集和测试集是合理的。数据集中给出了时间序号（"time_id"）从0开始至1219，共计3141410条。取其中百分之二作为测试集，从时间序号1201至1219。

窗口序列数据的获取和应用

解决该问题的思路很简单。将该数据集中各投资项目视为独立的时间序列，可以先根据investment_id划分数据集，再在划分后的数据集上分别通过滑动窗口的方法获取定长的时间序列数据。

但在实际应用中会遇到一些问题。首先，通过滑动窗口的方法获取的时间序列数据有较大的重复性。假设目标的时间序列长度为20，若将窗口序列数据集直接写入磁盘会占用原数据集近二十倍的空间。

相对应的，在训练过程中完全采用实时计算获取窗口序列也不是一个可取的方法。计算窗口序列的过程会在每个epoch中重复执行，计算函数的效率直接影响到训练的速度。

一个折中的方案是只将窗口序列中各时间点的数据在原数据集中对应的序号的记录下来作为序号数据集写入磁盘。在训练过程中通过读取原数据集和序号数据集生成batch。

由于RNN网络允许不定长的时间序列作为输入，而非矩阵形式的批次回影响输入的效率，故通过全零填充未达到要求长度的窗口序列并为此在原数据集中插入一行全零行（注意：全零行的插入需要在标准化、归一化等预处理操作之后）。

MIN_LEN = 20 # 最小窗口序列长度，低于该长度的窗口序列会被全零行填充

FEATURE_NUM = 300

ZERO_INDEX = 3141410 # 全零行序号

def form_indexes(data,time_range): # data：原数据集 time_range:时间序列范围

    id_list = sorted(data['investment_id'].unique())

    if 0 in id_list:

        id_list.remove(0)

    indexes_list = []

    for id in tqdm(id_list):

        sub_data = data[data['investment_id']==id].sort_values(by=['time_id'])

        time_list = tuple(sorted(sub_data['time_id'].unique()))

        for t in range(time_range[0],time_range[1]):

            if t in time_list:

                i_t = time_list.index(t)

                temp = list(sub_data[max(i_t-MIN_LEN+1,0):i_t+1].index.values)

                indexes = [ZERO_INDEX]*(MIN_LEN-len(temp)) + temp

    return indexes_list

在训练前构建窗口序列数据训练集和测试集（验证集）

通过tf.data.Dataset的from_generator方法构建数据集的益处在于只有在数据被使用时（读取或预读取）才会运行生成器函数，不会占用过多内存，同时shuffle和分批次等操作都能较为简便的完成。

train_indexset= pd.read_parquet('trainindex.parquet')

val_indexset= pd.read_parquet('valindex.parquet')

def gen_func(train_val_or_test): # 生成器函数

    if train_val_or_test == 1:

        for indexes in train_indexset.iterrows():

            features = data.iloc[indexes[1].values].values[:,4:]

            label = data.iloc[indexes[1].values[-1]]['target']

            yield (features,label)

    elif train_val_or_test == 2:

        for indexes in val_indexset.iterrows():

            features = data.iloc[indexes[1].values].values[:,4:]

            label = data.iloc[indexes[1].values[-1]]['target']

            yield (features,label)

    else:

        print("error input")

        raise ValueError

# 指定输出的形状和数据类型

featureSpec = tf.TensorSpec(

    shape=[MIN_LEN,FEATURE_NUM],

    dtype=tf.dtypes.float32,

    name=None

)

labelSpec = tf.TensorSpec(

    shape=[],

    dtype=tf.dtypes.float32,

    name=None

)

train_data = tf.data.Dataset.from_generator(generator=gen_func,args=[1] ,output_signature=(featureSpec,labelSpec))

val_data = tf.data.Dataset.from_generator(generator=gen_func,args=[2] ,output_signature=(featureSpec,labelSpec))

以下模型和超参数只做展示用途所用，不具有指导意义。

MIN_LEN = 20

FEATURE_NUM = 300

BATCH_SIZE = 1000

EPOCH_NUM = 50 

def build_RNNmodel():

    model = tf.keras.models.Sequential(

        [

            tf.keras.layers.Masking(mask_value=0.,

                                    input_shape=(MIN_LEN, FEATURE_NUM)),

            tf.keras.layers.LSTM(1024,activation='tanh',

                                return_sequences=True,

                                dropout=0.5,

                                kernel_initializer=tf.initializers.TruncatedNormal(stddev=0.01),

                                ),

            tf.keras.layers.LSTM(256,activation='tanh',

                                dropout=0.5,

                                kernel_initializer=tf.initializers.TruncatedNormal(stddev=0.01),

                                ),

            tf.keras.layers.Dense(1,activation='relu')

        ]

    )

    return model

train_batchs = train_data.batch(batch_size=BATCH_SIZE).prefetch(BATCH_SIZE)

val_batchs = val_data.batch(batch_size=BATCH_SIZE).prefetch(BATCH_SIZE)

# 设置prefetch可以预读取后续批次数据提高运行速度

model = build_RNNmodel()

model.compile(loss='mae', optimizer=tf.keras.optimizers.Adam(0.0001))

history = model.fit(train_batchs,epochs=EPOCH_NUM,validation_data=val_batchs)

这里只取了一部分整体数据的一部分作为演示，每个batch有1000条窗口序列，每个epoch有451个batch，运行一个epoch的时间约为530秒。

Tensorflow 窗口时间序列数据的处理的更多相关文章

TensorFlow实现时间序列预测
常常会碰到各种各样时间序列预测问题,如商场人流量的预测.商品价格的预测.股价的预测,等等.TensorFlow新引入了一个TensorFlow Time Series库(以下简称为TFTS),它可以帮 ...
DWT小波变换及其在时间序列数据预测中的应用
Given data: 时间序列数据. Goal:做预测方法:在滑动窗口中取DWT特征,并验证. 实验验证: Load forcast 数据集. 问题: 小波变换的物理意义是什么? 小波变换的数学意 ...
大数据DDos检测——DDos攻击本质上是时间序列数据，t+1时刻的数据特点和t时刻强相关，因此用HMM或者CRF来做检测是必然！和一个句子的分词算法CRF没有区别！
DDos攻击本质上是时间序列数据,t+1时刻的数据特点和t时刻强相关,因此用HMM或者CRF来做检测是必然!——和一个句子的分词算法CRF没有区别!注:传统DDos检测直接基于IP数据发送流量来识别, ...
geotrellis使用（二十三）动态加载时间序列数据
目录前言实现方法总结一.前言今天要介绍的绝对是华丽的干货.比如我们从互联网上下载到了一系列(每天或者月平均等)的MODIS数据,我们怎么能够对比同一区域不同时间的数据情况,采用 ...
EXTJS中grid的数据特殊显示，不同窗口的数据传递
//EXTJS中grid的数据特殊显示renderer : function(value, metaData, record, rowIndex, colIndex, store, view) { v ...
MetricGraphics.js – 时间序列数据的可视化
MetricsGraphics.js 是建立在D3的基础上,被用于可视化和布局的时间序列数据进行了优化.它提供以产生一个原则性的,一致的和响应式的方式的图形常见类型的简单方法.该库目前支持折线图,散点 ...
OpenStack/Gnocchi简介——时间序列数据聚合操作提前计算并存储起来，先算后取的理念
先看下 http://www.cnblogs.com/bonelee/p/6236962.html 这里对于环形数据库的介绍,便于理解归档这个操作! 转自:http://blog.sina.com.c ...
js实现非模态窗口增加数据后刷新父窗口数据
父窗口是由两个部分组成,一个html的table,一部分是extjs的gird. 点击grid面板[增加]按钮将会弹出非模态窗口进行新数据的编辑页面下面是按钮的触发函数代码: var a = win ...
mysql 生成时间序列数据 - 存储过程
由于时间自动转换为int值, 做一步转化,也可在调用时处理 use `test`; CREATE table test.test1 as SELECT state, id, `规格条码`, `色号条码 ...

随机推荐

面试问题之C++语言：mutable关键字
转载于:https://www.cnblogs.com/xkfz007/articles/2419540.html mutable关键字 mutable的中文意思是"可变的,易变的" ...
Vue基于webpack自动装载配置
Vue的自动装载配置是在 @cli/cli-service 包中,配置文件的目录在 lib/config/ 下的文件,css.js 文件是配置样式的处理,先从这里开始了解把 CSS配置流程对应着这 ...
memcached 如何实现冗余机制？
不实现!我们对这个问题感到很惊讶.Memcached 应该是应用的缓存层.它的设计本身就不带有任何冗余机制.如果一个 memcached 节点失去了所有数据,您应该可以从数据源(比如数据库)再次获 ...
Effective Java —— 使类和成员的可访问性最小化
本文参考本篇文章参考自<Effective Java>第三版第十五条"Minimize the accessibility of classes and members&quo ...
ROS终端中创建功能包的常用命令
《剑指offer》面试题2：实现Singleton 模式
面试题2:实现Singleton 模式题目:设计一个类,我们只能生成该类的一个实例. 只能生成一个实例的类是实现了Singleton (单例)模式的类型.由于设计模式在面向对象程序设计中起着举足 ...
基于HTML5的拓扑图编辑器（2）
继续来说编辑器的需求, 前面介绍了拖拽创建节点.以及连线的方法,并加入到了其后的 Qunee 类库,实际应用中需要更多功能,Qunee 的拓扑图编辑器也在逐渐完善,一方面增加多种编辑交互,一方面提供数 ...
小程序完整对接 pingpp支付
小程序完整对接 pingpp支付有几个先要条件: 小程序需要企业认证且开通支付功能,个人认证是无法使用支付功能的(小程序微信支付官网) pingpp 本身接入的企业服务器(即商户服务器)并不强制要求 ...
java中throws子句是怎么用的？工作原理是什么
7.throws子句马克-to-win:当你的方法里抛出了checked异常,如你不catch,代表你当时不处理(不想处理或没条件处理),但你必须得通过"throws那个异常"告 ...
ubantu之Git使用
本文讲述在Ubuntu 14.04 x64环境下,如何安装Git,配置连接GitHub,并且上传本地代码到github. 一. 注册Git账户以及创建仓库要想使用github第一步当然是注册gith ...