PyTorch基础——预测共享单车的使用量

预处理实验数据

读取数据

下载数据网盘链接：https://pan.baidu.com/s/1n_FtZjAswWR9rfuI6GtDhA 提取码：y4fb

#导入需要使用的库

import numpy as np

import pandas as pd #读取csv文件的库

import matplotlib.pyplot as plt

import torch

from torch.autograd import Variable

import torch.optim as optim

# 让输出的图形直接在Notebook中显示

%matplotlib inline

#首先，让我们再来看看数据长什么样子

#读取数据到内存中，rides为一个dataframe对象

data_path = 'hour.csv'

rides = pd.read_csv(data_path)

rides.head()

对于类型变量的处理

#对于类型变量的特殊处理

# season=1,2,3,4, weathersi=1,2,3, mnth= 1,2,...,12, hr=0,1, ...,23, weekday=0,1,...,6

# 经过下面的处理后，将会多出若干特征，例如，对于season变量就会有 season_1, season_2, season_3, season_4

# 这四种不同的特征。

dummy_fields = ['season', 'weathersit', 'mnth', 'hr', 'weekday']

for each in dummy_fields:

    #利用pandas对象，我们可以很方便地将一个类型变量属性进行one-hot编码，变成多个属性

    dummies = pd.get_dummies(rides[each], prefix=each, drop_first=False)

    rides = pd.concat([rides, dummies], axis=1)

# 把原有的类型变量对应的特征去掉，将一些不相关的特征去掉

fields_to_drop = ['instant', 'dteday', 'season', 'weathersit',

                  'weekday', 'atemp', 'mnth', 'workingday', 'hr']

data = rides.drop(fields_to_drop, axis=1)

data.head()

对于数值类型变量进行标准化

# 调整所有的特征，标准化处理

quant_features = ['cnt', 'temp', 'hum', 'windspeed']

#quant_features = ['temp', 'hum', 'windspeed']

# 我们将每一个变量的均值和方差都存储到scaled_features变量中。

scaled_features = {}

for each in quant_features:

    mean, std = data[each].mean(), data[each].std()

    scaled_features[each] = [mean, std]

    data.loc[:, each] = (data[each] - mean)/std

将数据集进行分割

# 将所有的数据集分为测试集和训练集，我们以后21天数据一共21*24个数据点作为测试集，其它是训练集

test_data = data[-21*24:]

train_data = data[:-21*24]

print('训练数据：',len(train_data),'测试数据：',len(test_data))

# 将我们的数据列分为特征列和目标列

#目标列

target_fields = ['cnt', 'casual', 'registered']

features, targets = train_data.drop(target_fields, axis=1), train_data[target_fields]

test_features, test_targets = test_data.drop(target_fields, axis=1), test_data[target_fields]

# 将数据从pandas dataframe转换为numpy

X = features.values

Y = targets['cnt'].values

Y = Y.astype(float)

Y = np.reshape(Y, [len(Y),1])

losses = []

features.head()

构建神经网络模型

手动编写用 Tensor 运算的人工神经网络

# 定义神经网络架构，features.shape[1]个输入层单元，10个隐含层，1个输出层

input_size = features.shape[1] #输入层单元个数

hidden_size = 10 #隐含层单元个数

output_size = 1 #输出层单元个数

batch_size = 128 #每隔batch的记录数

weights1 = Variable(torch.randn([input_size, hidden_size]), requires_grad = True) #第一到二层权重

biases1 = Variable(torch.randn([hidden_size]), requires_grad = True) #隐含层偏置

weights2 = Variable(torch.randn([hidden_size, output_size]), requires_grad = True) #隐含层到输出层权重

def neu(x):

    #计算隐含层输出

    #x为batch_size * input_size的矩阵，weights1为input_size*hidden_size矩阵，

    #biases为hidden_size向量，输出为batch_size * hidden_size矩阵

    hidden = x.mm(weights1) + biases1.expand(x.size()[0], hidden_size)

    hidden = torch.sigmoid(hidden)

    #输入batch_size * hidden_size矩阵，mm上weights2, hidden_size*output_size矩阵，

    #输出batch_size*output_size矩阵

    output = hidden.mm(weights2)

    return output

def cost(x, y):

    # 计算损失函数

    error = torch.mean((x - y)**2)

    return error

def zero_grad():

    # 清空每个参数的梯度信息

    if weights1.grad is not None and biases1.grad is not None and weights2.grad is not None:

        weights1.grad.data.zero_()

        weights2.grad.data.zero_()

        biases1.grad.data.zero_()

def optimizer_step(learning_rate):

    # 梯度下降算法

    weights1.data.add_(- learning_rate * weights1.grad.data)

    weights2.data.add_(- learning_rate * weights2.grad.data)

    biases1.data.add_(- learning_rate * biases1.grad.data)

调用PyTorch现成的函数，构建序列化的神经网络

# 定义神经网络架构，features.shape[1]个输入层单元，10个隐含层，1个输出层

input_size = features.shape[1]

hidden_size = 10

output_size = 1

batch_size = 128

neu = torch.nn.Sequential(

    torch.nn.Linear(input_size, hidden_size),

    torch.nn.Sigmoid(),

    torch.nn.Linear(hidden_size, output_size),

)

cost = torch.nn.MSELoss()

optimizer = torch.optim.SGD(neu.parameters(), lr = 0.01)

数据的分批次处理

# 神经网络训练循环

losses = []

for i in range(1000):

    # 每128个样本点被划分为一个撮，在循环的时候一批一批地读取

    batch_loss = []

    # start和end分别是提取一个batch数据的起始和终止下标

    for start in range(0, len(X), batch_size):

        end = start + batch_size if start + batch_size < len(X) else len(X)

        xx = Variable(torch.FloatTensor(X[start:end]))

        yy = Variable(torch.FloatTensor(Y[start:end]))

        predict = neu(xx)

        loss = cost(predict, yy)

        optimizer.zero_grad()

        loss.backward()

        optimizer.step()

        batch_loss.append(loss.data.numpy())

    # 每隔100步输出一下损失值（loss）

    if i % 100==0:

        losses.append(np.mean(batch_loss))

        print(i, np.mean(batch_loss))

# 打印输出损失值

fig = plt.figure(figsize=(10, 7))

plt.plot(np.arange(len(losses))*100,losses, 'o-')

plt.xlabel('epoch')

plt.ylabel('MSE')

测试网络

使用测试数据集测试网络

# 用训练好的神经网络在测试集上进行预测

targets = test_targets['cnt'] #读取测试集的cnt数值

targets = targets.values.reshape([len(targets),1]) #将数据转换成合适的tensor形式

targets = targets.astype(float) #保证数据为实数

# 将属性和预测变量包裹在Variable型变量中

x = Variable(torch.FloatTensor(test_features.values))

y = Variable(torch.FloatTensor(targets))

# 用神经网络进行预测

predict = neu(x)

predict = predict.data.numpy()

# 将后21天的预测数据与真实数据画在一起并比较

# 横坐标轴是不同的日期，纵坐标轴是预测或者真实数据的值

fig, ax = plt.subplots(figsize = (10, 7))

mean, std = scaled_features['cnt']

ax.plot(predict * std + mean, label='Prediction', linestyle = '--')

ax.plot(targets * std + mean, label='Data', linestyle = '-')

ax.legend()

ax.set_xlabel('Date-time')

ax.set_ylabel('Counts')

# 对横坐标轴进行标注

dates = pd.to_datetime(rides.loc[test_data.index]['dteday'])

dates = dates.apply(lambda d: d.strftime('%b %d'))

ax.set_xticks(np.arange(len(dates))[12::24])

_ = ax.set_xticklabels(dates[12::24], rotation=45)

PyTorch基础——预测共享单车的使用量的更多相关文章

烧光百亿的共享单车行业，ofo和摩拜到底该不该合并？
共享经济领域可谓一地鸡毛,除了众多不靠谱的跟风项目外--共享马扎."老公寄存屋",更多的是不绝于耳的倒闭消息.尤其是在共享单车行业,暂且不提那些体量小的项目,单单是倒闭的大型共享单 ...
【Social listening实操】用大数据文本挖掘，来洞察“共享单车”的行业现状及走势
本文转自知乎作者:苏格兰折耳喵 ----------------------------------------------------- 对于当下共享单车在互联网界的火热状况,笔者想从大数据文本挖 ...
关于小黄车（ofo共享单车）使用的问题
小黄车即ofo共享单车,号称是全球创立最早.成长最快.规模最大的无桩共享单车创业公司,缔造了"共享单车"概念,致力于解决城市出行问题.它的出现给大家带来了方便,作为一个商业运行的公 ...
RFID电动自行车与共享单车之物联网比较
目前比较热门的RFID电动自行车管理和共享单车,都是属于物联网范畴.它们之间有什么不同呢? 1.RFID电动自行车管理系统原理 RFID电动自行车管理,利用了有源RFID技术,使用基站SR8读取安装在 ...
爬取ofo共享单车信息
前段时间看到很多微信公众号在转发一篇爬取mobike单车的信息,也不知道什么原因,在网上搜索了下很少有人在爬取ofo共享单车的数据,所以决定看看可以爬取ofo共享单车的那些数据. 抓取数据开始的时候, ...
大数据freestyle: 共享单车轨迹数据助力城市合理规划自行车道
编者按:近年来,异军突起的共享单车极大地解决了人们共同面临的“最后一公里”难题,然而,共享单车发展迅猛,自行车道建设却始终没有能够跟上脚步.幸运的是摩拜单车大量的轨迹数据为我们提供了一种新的思路:利用 ...
ofo身陷被收购、破产传闻，中国的共享单车还能活下去吗？
大潮退去,终将现出谁在"裸泳".尤其是那些看似火爆却迅速陨落的新事物,总是避免不了让人发出"伤仲永"的感慨.这其中,共享经济就是很典型的案例.共享睡眠舱.共享马 ...
oBike退出新加坡、ofo取消免押金服务，全球共享单车都怎么了？
浪潮退去后,才知道谁在裸泳.这句已经被说烂的"至理名言",往往被用在一波接一波的互联网热潮中.团购.O2O.共享单车.共享打车.无人货柜--几乎每一波热潮在退去后会暴露出存在的问题 ...
[人工智能]Pytorch基础
PyTorch基础摘抄自<深度学习之Pytorch>. Tensor(张量) PyTorch里面处理的最基本的操作对象就是Tensor,表示的是一个多维矩阵,比如零维矩阵就是一个点,一维 ...

随机推荐

mysql第四篇：数据操作之多表查询
mysql第四篇:数据操作之多表查询一.多表联合查询 #创建部门 CREATE TABLE IF NOT EXISTS dept ( did int not null auto_increment ...
[XNUCA2019Qualifier]EasyPHP
0x00 知识点预期解中知识点: htaccess生效如果尝试上传htaccess文件会发现出现响应500的问题,因为文件尾有Just one chance 这里采用# \的方式将换行符转义成普通 ...
Linux-课后练习（第二章命令）20200217-1
Windbg 实践之符号篇
How to display the size value 1)一开始不会加载,chksym 了一下就加载了. 2) 新版本已经可以显示size的大小了 3)?? 显示变量的类型 4)x std::v ...
c++ 排序冒泡插入选择快速
//冒泡 #include <iostream> using namespace std; void bubbleSort(int* list,int index) { ;i--) //i ...
php对象：get_object_vars(), get_parent_class(),is_subclass_of()，interface_exists()
get_object_vars():获得对象的属性,以关联数组形式返回 get_parent_class():获得对象的父类 is_subclass_of():判断对象是否某类(参数2)的子类实例出的 ...
JNI传递修改自定义Java Class数组数据
声明:迁移自本人CSDN博客https://blog.csdn.net/u013365635 结合前面讲的2篇关于JNI的文章,这里直接把代码贴上,主要是要知道如果传递自定义Class Array的时 ...
linux tar/ tar.gz文件解压
1.tar 压缩 tar -cvf jpg.tar *.jpg //将目录里所有jpg文件打包成tar.jpg tar -czf jpg.tar.gz *.jpg //将目录里所有jpg文件打包成 ...
ZJNU 2340/2341/2343 - 罗小黑的“礼物”Ⅰ/Ⅱ/Ⅲ
把一位数.两位数.三位数……这些所在的范围分开判断可得1~9这些数范围在[1,9]内 10~99内共有90个数,每个数占两位,所以共有180位在,范围在[10,189]内同理,100~999内共有 ...
android中shape的使用（android:angle小解）
本文参考http://kofi1122.blog.51cto.com/2815761/521605和http://blog.csdn.net/qizi329/article/details/63098 ...

PyTorch基础——预测共享单车的使用量

预处理实验数据

读取数据

对于类型变量的处理

对于数值类型变量进行标准化

将数据集进行分割

构建神经网络模型

手动编写用 Tensor 运算的人工神经网络

调用PyTorch现成的函数，构建序列化的神经网络

数据的分批次处理

测试网络

使用测试数据集测试网络

PyTorch基础——预测共享单车的使用量的更多相关文章

随机推荐

热门专题