softmax和分类模型

内容包含：

softmax回归的基本概念
如何获取Fashion-MNIST数据集和读取数据
softmax回归模型的从零开始实现，实现一个对Fashion-MNIST训练集中的图像数据进行分类的模型
使用pytorch重新实现softmax回归模型

**本小节用到的数据下载

1、涉及语句 import d2lzh1981 as d2l

数据1 ：

d2lzh1981

链接：https://pan.baidu.com/s/1LyaZ84Q4M75GLOO-ZPvPoA

提取码：cf8s

2、涉及语句

batch_size = 256

train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size,root=’/home/kesci/input/FashionMNIST2065’)

数据2 : 为方便，可把数据直接下载下来。

为使用需

1）保持数据文件夹的路径把数据拷贝到jupyter notebook路径下

2）修改 home路径前加点，即’./home/kesci/input/FashionMNIST2065’)

3）修改d2lzh1981文件下的utils.py 的load_data_fashion_mnist（）方法。为

torchvision.datasets.FashionMNIST(root=root, train=True, download=False, transform=transform)

FashionMNIST2065

链接：https://pan.baidu.com/s/1MLhOsusr5hqPn8sik1bUqw

提取码：v0l8**

softmax的基本概念

分类问题

一个简单的图像分类问题，输入图像的高和宽均为2像素，色彩为灰度。

图像中的4像素分别记为x1,x2,x3,x4x_1, x_2, x_3, x_4x1,x2,x3,x4。

假设真实标签为狗、猫或者鸡，这些标签对应的离散值为y1,y2,y3y_1, y_2, y_3y1,y2,y3。

我们通常使用离散的数值来表示类别，例如y1=1,y2=2,y3=3y_1=1, y_2=2, y_3=3y1=1,y2=2,y3=3。
权重矢量

o1=x1w11+x2w21+x3w31+x4w41+b1
\begin{aligned} o_1 &= x_1 w_{11} + x_2 w_{21} + x_3 w_{31} + x_4 w_{41} + b_1 \end{aligned}
o1=x1w11+x2w21+x3w31+x4w41+b1

o2=x1w12+x2w22+x3w32+x4w42+b2
\begin{aligned} o_2 &= x_1 w_{12} + x_2 w_{22} + x_3 w_{32} + x_4 w_{42} + b_2 \end{aligned}
o2=x1w12+x2w22+x3w32+x4w42+b2

o3=x1w13+x2w23+x3w33+x4w43+b3
\begin{aligned} o_3 &= x_1 w_{13} + x_2 w_{23} + x_3 w_{33} + x_4 w_{43} + b_3 \end{aligned}
o3=x1w13+x2w23+x3w33+x4w43+b3

神经网络图

下图用神经网络图描绘了上面的计算。softmax回归同线性回归一样，也是一个单层神经网络。由于每个输出o1,o2,o3o_1, o_2, o_3o1,o2,o3的计算都要依赖于所有的输入x1,x2,x3,x4x_1, x_2, x_3, x_4x1,x2,x3,x4，softmax回归的输出层也是一个全连接层。

softmax回归是一个单层神经网络
\begin{aligned}softmax回归是一个单层神经网络\end{aligned}
softmax回归是一个单层神经网络

既然分类问题需要得到离散的预测输出，一个简单的办法是将输出值oio_ioi当作预测类别是iii的置信度，并将值最大的输出所对应的类作为预测输出，即输出 arg⁡max⁡ioi\underset{i}{\arg\max} o_iiargmaxoi。例如，如果o1,o2,o3o_1,o_2,o_3o1,o2,o3分别为0.1,10,0.10.1,10,0.10.1,10,0.1，由于o2o_2o2最大，那么预测类别为2，其代表猫。

输出问题

直接使用输出层的输出有两个问题：
1. 一方面，由于输出层的输出值的范围不确定，我们难以直观上判断这些值的意义。例如，刚才举的例子中的输出值10表示“很置信”图像类别为猫，因为该输出值是其他两类的输出值的100倍。但如果o1=o3=103o_1=o_3=10^3o1=o3=103，那么输出值10却又表示图像类别为猫的概率很低。
2. 另一方面，由于真实标签是离散值，这些离散值与不确定范围的输出值之间的误差难以衡量。

softmax运算符（softmax operator）解决了以上两个问题。它通过下式将输出值变换成值为正且和为1的概率分布：

y^1,y^2,y^3=softmax(o1,o2,o3)
\hat{y}_1, \hat{y}_2, \hat{y}_3 = \text{softmax}(o_1, o_2, o_3)
y^1,y^2,y^3=softmax(o1,o2,o3)

其中

y^1=exp⁡(o1)∑i=13exp⁡(oi),y^2=exp⁡(o2)∑i=13exp⁡(oi),y^3=exp⁡(o3)∑i=13exp⁡(oi).
\hat{y}1 = \frac{ \exp(o_1)}{\sum_{i=1}^3 \exp(o_i)},\quad \hat{y}2 = \frac{ \exp(o_2)}{\sum_{i=1}^3 \exp(o_i)},\quad \hat{y}3 = \frac{ \exp(o_3)}{\sum_{i=1}^3 \exp(o_i)}.
y^1=∑i=13exp(oi)exp(o1),y^2=∑i=13exp(oi)exp(o2),y^3=∑i=13exp(oi)exp(o3).

容易看出y^1+y^2+y^3=1\hat{y}_1 + \hat{y}_2 + \hat{y}_3 = 1y^1+y^2+y^3=1且0≤y^1,y^2,y^3≤10 \leq \hat{y}_1, \hat{y}_2, \hat{y}_3 \leq 10≤y^1,y^2,y^3≤1，因此y^1,y^2,y^3\hat{y}_1, \hat{y}_2, \hat{y}_3y^1,y^2,y^3是一个合法的概率分布。这时候，如果y^2=0.8\hat{y}_2=0.8y^2=0.8，不管y^1\hat{y}_1y^1和y^3\hat{y}_3y^3的值是多少，我们都知道图像类别为猫的概率是80%。此外，我们注意到

arg⁡max⁡ioi=arg⁡max⁡iy^i
\underset{i}{\arg\max} o_i = \underset{i}{\arg\max} \hat{y}_i
iargmaxoi=iargmaxy^i

因此softmax运算不改变预测类别输出。

计算效率
- 单样本矢量计算表达式
  
  为了提高计算效率，我们可以将单样本分类通过矢量计算来表达。在上面的图像分类问题中，假设softmax回归的权重和偏差参数分别为

W=[w11w12w13w21w22w23w31w32w33w41w42w43],b=[b1b2b3],
\boldsymbol{W} = \begin{bmatrix} w_{11} & w_{12} & w_{13} \\ w_{21} & w_{22} & w_{23} \\ w_{31} & w_{32} & w_{33} \\ w_{41} & w_{42} & w_{43} \end{bmatrix},\quad \boldsymbol{b} = \begin{bmatrix} b_1 & b_2 & b_3 \end{bmatrix},
W=⎣⎢⎢⎡w11w21w31w41w12w22w32w42w13w23w33w43⎦⎥⎥⎤,b=[b1b2b3],

设高和宽分别为2个像素的图像样本iii的特征为

x(i)=[x1(i)x2(i)x3(i)x4(i)],
\boldsymbol{x}^{(i)} = \begin{bmatrix}x_1^{(i)} & x_2^{(i)} & x_3^{(i)} & x_4^{(i)}\end{bmatrix},
x(i)=[x1(i)x2(i)x3(i)x4(i)],

输出层的输出为

o(i)=[o1(i)o2(i)o3(i)],
\boldsymbol{o}^{(i)} = \begin{bmatrix}o_1^{(i)} & o_2^{(i)} & o_3^{(i)}\end{bmatrix},
o(i)=[o1(i)o2(i)o3(i)],

预测为狗、猫或鸡的概率分布为

y^(i)=[y^1(i)y^2(i)y^3(i)].
\boldsymbol{\hat{y}}^{(i)} = \begin{bmatrix}\hat{y}_1^{(i)} & \hat{y}_2^{(i)} & \hat{y}_3^{(i)}\end{bmatrix}.
y^(i)=[y^1(i)y^2(i)y^3(i)].

softmax回归对样本iii分类的矢量计算表达式为

o(i)=x(i)W+b,y^(i)=softmax(o(i)).
\begin{aligned} \boldsymbol{o}^{(i)} &= \boldsymbol{x}^{(i)} \boldsymbol{W} + \boldsymbol{b},\\ \boldsymbol{\hat{y}}^{(i)} &= \text{softmax}(\boldsymbol{o}^{(i)}). \end{aligned}
o(i)y^(i)=x(i)W+b,=softmax(o(i)).

小批量矢量计算表达式

为了进一步提升计算效率，我们通常对小批量数据做矢量计算。广义上讲，给定一个小批量样本，其批量大小为nnn，输入个数（特征数）为ddd，输出个数（类别数）为qqq。设批量特征为X∈Rn×d\boldsymbol{X} \in \mathbb{R}^{n \times d}X∈Rn×d。假设softmax回归的权重和偏差参数分别为W∈Rd×q\boldsymbol{W} \in \mathbb{R}^{d \times q}W∈Rd×q和b∈R1×q\boldsymbol{b} \in \mathbb{R}^{1 \times q}b∈R1×q。softmax回归的矢量计算表达式为

O=XW+b,Y^=softmax(O),
\begin{aligned} \boldsymbol{O} &= \boldsymbol{X} \boldsymbol{W} + \boldsymbol{b},\\ \boldsymbol{\hat{Y}} &= \text{softmax}(\boldsymbol{O}), \end{aligned}
OY^=XW+b,=softmax(O),

其中的加法运算使用了广播机制，O,Y^∈Rn×q\boldsymbol{O}, \boldsymbol{\hat{Y}} \in \mathbb{R}^{n \times q}O,Y^∈Rn×q且这两个矩阵的第iii行分别为样本iii的输出o(i)\boldsymbol{o}^{(i)}o(i)和概率分布y^(i)\boldsymbol{\hat{y}}^{(i)}y^(i)。

交叉熵损失函数

对于样本iii，我们构造向量y(i)∈Rq\boldsymbol{y}^{(i)}\in \mathbb{R}^{q}y(i)∈Rq ，使其第y(i)y^{(i)}y(i)（样本iii类别的离散数值）个元素为1，其余为0。这样我们的训练目标可以设为使预测概率分布y^(i)\boldsymbol{\hat y}^{(i)}y^(i)尽可能接近真实的标签概率分布y(i)\boldsymbol{y}^{(i)}y(i)。

平方损失估计

Loss=∣y^(i)−y(i)∣2/2
\begin{aligned}Loss = |\boldsymbol{\hat y}^{(i)}-\boldsymbol{y}^{(i)}|^2/2\end{aligned}
Loss=∣y^(i)−y(i)∣2/2

然而，想要预测分类结果正确，我们其实并不需要预测概率完全等于标签概率。例如，在图像分类的例子里，如果y(i)=3y^{(i)}=3y(i)=3，那么我们只需要y^3(i)\hat{y}^{(i)}_3y^3(i)比其他两个预测值y^1(i)\hat{y}^{(i)}_1y^1(i)和y^2(i)\hat{y}^{(i)}_2y^2(i)大就行了。即使y^3(i)\hat{y}^{(i)}_3y^3(i)值为0.6，不管其他两个预测值为多少，类别预测均正确。而平方损失则过于严格，例如y^1(i)=y^2(i)=0.2\hat y^{(i)}_1=\hat y^{(i)}_2=0.2y^1(i)=y^2(i)=0.2比y^1(i)=0,y^2(i)=0.4\hat y^{(i)}_1=0, \hat y^{(i)}_2=0.4y^1(i)=0,y^2(i)=0.4的损失要小很多，虽然两者都有同样正确的分类预测结果。

改善上述问题的一个方法是使用更适合衡量两个概率分布差异的测量函数。其中，交叉熵（cross entropy）是一个常用的衡量方法：

H(y(i),y^(i))=−∑j=1qyj(i)log⁡y^j(i),
H\left(\boldsymbol y^{(i)}, \boldsymbol {\hat y}^{(i)}\right ) = -\sum_{j=1}^q y_j^{(i)} \log \hat y_j^{(i)},
H(y(i),y^(i))=−j=1∑qyj(i)logy^j(i),

其中带下标的yj(i)y_j^{(i)}yj(i)是向量y(i)\boldsymbol y^{(i)}y(i)中非0即1的元素，需要注意将它与样本iii类别的离散数值，即不带下标的y(i)y^{(i)}y(i)区分。在上式中，我们知道向量y(i)\boldsymbol y^{(i)}y(i)中只有第y(i)y^{(i)}y(i)个元素y(i)y(i)y^{(i)}{y^{(i)}}y(i)y(i)为1，其余全为0，于是H(y(i),y^(i))=−log⁡y^y(i)(i)H(\boldsymbol y^{(i)}, \boldsymbol {\hat y}^{(i)}) = -\log \hat y_{y^{(i)}}^{(i)}H(y(i),y^(i))=−logy^y(i)(i)。也就是说，交叉熵只关心对正确类别的预测概率，因为只要其值足够大，就可以确保分类结果正确。当然，遇到一个样本有多个标签时，例如图像里含有不止一个物体时，我们并不能做这一步简化。但即便对于这种情况，交叉熵同样只关心对图像中出现的物体类别的预测概率。

假设训练数据集的样本数为nnn，交叉熵损失函数定义为

ℓ(Θ)=1n∑i=1nH(y(i),y^(i)),
\ell(\boldsymbol{\Theta}) = \frac{1}{n} \sum_{i=1}^n H\left(\boldsymbol y^{(i)}, \boldsymbol {\hat y}^{(i)}\right ),
ℓ(Θ)=n1i=1∑nH(y(i),y^(i)),

其中Θ\boldsymbol{\Theta}Θ代表模型参数。同样地，如果每个样本只有一个标签，那么交叉熵损失可以简写成ℓ(Θ)=−(1/n)∑i=1nlog⁡y^y(i)(i)\ell(\boldsymbol{\Theta}) = -(1/n) \sum_{i=1}^n \log \hat y_{y^{(i)}}^{(i)}ℓ(Θ)=−(1/n)∑i=1nlogy^y(i)(i)。从另一个角度来看，我们知道最小化ℓ(Θ)\ell(\boldsymbol{\Theta})ℓ(Θ)等价于最大化exp⁡(−nℓ(Θ))=∏i=1ny^y(i)(i)\exp(-n\ell(\boldsymbol{\Theta}))=\prod_{i=1}^n \hat y_{y^{(i)}}^{(i)}exp(−nℓ(Θ))=∏i=1ny^y(i)(i)，即最小化交叉熵损失函数等价于最大化训练数据集所有标签类别的联合预测概率。

模型训练和预测

在训练好softmax回归模型后，给定任一样本特征，就可以预测每个输出类别的概率。通常，我们把预测概率最大的类别作为输出类别。如果它与真实类别（标签）一致，说明这次预测是正确的。在3.6节的实验中，我们将使用准确率（accuracy）来评价模型的表现。它等于正确预测数量与总预测数量之比。

获取Fashion-MNIST训练集和读取数据

在介绍softmax回归的实现前我们先引入一个多类图像分类数据集。它将在后面的章节中被多次使用，以方便我们观察比较算法之间在模型精度和计算效率上的区别。图像分类数据集中最常用的是手写数字识别数据集MNIST[1]。但大部分模型在MNIST上的分类精度都超过了95%。为了更直观地观察算法之间的差异，我们将使用一个图像内容更加复杂的数据集Fashion-MNIST[2]。

我这里我们会使用torchvision包，它是服务于PyTorch深度学习框架的，主要用来构建计算机视觉模型。torchvision主要由以下几部分构成：

torchvision.datasets: 一些加载数据的函数及常用的数据集接口；
torchvision.models: 包含常用的模型结构（含预训练模型），例如AlexNet、VGG、ResNet等；
torchvision.transforms: 常用的图片变换，例如裁剪、旋转等；
torchvision.utils: 其他的一些有用的方法。

# import needed package

%matplotlib inline

from IPython import display

import matplotlib.pyplot as plt

import torch

import torchvision

import torchvision.transforms as transforms

import time

import sys

sys.path.append("/home/kesci/input")

import d2lzh1981 as d2l

print(torch.__version__)

print(torchvision.__version__)

1.3.0

0.4.1a0+d94043a

get dataset

mnist_train = torchvision.datasets.FashionMNIST(root='/home/kesci/input/FashionMNIST2065', train=True, download=True, transform=transforms.ToTensor())

mnist_test = torchvision.datasets.FashionMNIST(root='/home/kesci/input/FashionMNIST2065', train=False, download=True, transform=transforms.ToTensor())

class torchvision.datasets.FashionMNIST(root, train=True, transform=None, target_transform=None, download=False)

root（string）– 数据集的根目录，其中存放processed/training.pt和processed/test.pt文件。
train（bool, 可选）– 如果设置为True，从training.pt创建数据集，否则从test.pt创建。
download（bool, 可选）– 如果设置为True，从互联网下载数据并放到root文件夹下。如果root目录下已经存在数据，不会再次下载。
transform（可被调用 , 可选）– 一种函数或变换，输入PIL图片，返回变换之后的数据。如：transforms.RandomCrop。
target_transform（可被调用 , 可选）– 一种函数或变换，输入目标，进行变换。

# show result

print(type(mnist_train))

print(len(mnist_train), len(mnist_test))

<class 'torchvision.datasets.mnist.FashionMNIST'>

60000 10000

# 我们可以通过下标来访问任意一个样本

feature, label = mnist_train[0]

print(feature.shape, label)  # Channel x Height x Width

torch.Size([1, 28, 28]) 9

如果不做变换输入的数据是图像，我们可以看一下图片的类型参数：

mnist_PIL = torchvision.datasets.FashionMNIST(root='/home/kesci/input/FashionMNIST2065', train=True, download=True)

PIL_feature, label = mnist_PIL[0]

print(PIL_feature)

<PIL.Image.Image image mode=L size=28x28 at 0x7F215732F5C0>

# 本函数已保存在d2lzh包中方便以后使用

def get_fashion_mnist_labels(labels):

    text_labels = ['t-shirt', 'trouser', 'pullover', 'dress', 'coat',

                   'sandal', 'shirt', 'sneaker', 'bag', 'ankle boot']

    return [text_labels[int(i)] for i in labels]

def show_fashion_mnist(images, labels):

    d2l.use_svg_display()

    # 这里的_表示我们忽略（不使用）的变量

    _, figs = plt.subplots(1, len(images), figsize=(12, 12))

    for f, img, lbl in zip(figs, images, labels):

        f.imshow(img.view((28, 28)).numpy())

        f.set_title(lbl)

        f.axes.get_xaxis().set_visible(False)

        f.axes.get_yaxis().set_visible(False)

    plt.show()

X, y = [], []

for i in range(10):

    X.append(mnist_train[i][0]) # 将第i个feature加到X中

    y.append(mnist_train[i][1]) # 将第i个label加到y中

show_fashion_mnist(X, get_fashion_mnist_labels(y))

# 读取数据

batch_size = 256

num_workers = 4

train_iter = torch.utils.data.DataLoader(mnist_train, batch_size=batch_size, shuffle=True, num_workers=num_workers)

test_iter = torch.utils.data.DataLoader(mnist_test, batch_size=batch_size, shuffle=False, num_workers=num_workers)

start = time.time()

for X, y in train_iter:

    continue

print('%.2f sec' % (time.time() - start))

4.51 sec

softmax从零开始的实现

import torch

import torchvision

import numpy as np

import sys

sys.path.append("/home/kesci/input")

import d2lzh1981 as d2l

print(torch.__version__)

print(torchvision.__version__)

1.3.0

0.4.1a0+d94043a

获取训练集数据和测试集数据

batch_size = 256

train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size, root='/home/kesci/input/FashionMNIST2065')

模型参数初始化

num_inputs = 784

print(28*28)

num_outputs = 10

W = torch.tensor(np.random.normal(0, 0.01, (num_inputs, num_outputs)), dtype=torch.float)

b = torch.zeros(num_outputs, dtype=torch.float)

W.requires_grad_(requires_grad=True)

b.requires_grad_(requires_grad=True)

tensor([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.], requires_grad=True)

对多维Tensor按维度操作

X = torch.tensor([[1, 2, 3], [4, 5, 6]])

print(X.sum(dim=0, keepdim=True))  # dim为0，按照相同的列求和，并在结果中保留列特征

print(X.sum(dim=1, keepdim=True))  # dim为1，按照相同的行求和，并在结果中保留行特征

print(X.sum(dim=0, keepdim=False)) # dim为0，按照相同的列求和，不在结果中保留列特征

print(X.sum(dim=1, keepdim=False)) # dim为1，按照相同的行求和，不在结果中保留行特征

tensor([[5, 7, 9]])

tensor([[ 6],

        [15]])

tensor([5, 7, 9])

tensor([ 6, 15])

定义softmax操作

y^j=exp⁡(oj)∑i=13exp⁡(oi)
\hat{y}_j = \frac{ \exp(o_j)}{\sum_{i=1}^3 \exp(o_i)}
y^j=∑i=13exp(oi)exp(oj)

def softmax(X):

    X_exp = X.exp()

    partition = X_exp.sum(dim=1, keepdim=True)

    # print("X size is ", X_exp.size())

    # print("partition size is ", partition, partition.size())

    return X_exp / partition  # 这里应用了广播机制

X = torch.rand((2, 5))

X_prob = softmax(X)

print(X_prob, '\n', X_prob.sum(dim=1))

tensor([[0.3066, 0.2160, 0.1336, 0.2252, 0.1186],

        [0.2449, 0.1470, 0.2431, 0.1657, 0.1992]])

 tensor([1.0000, 1.0000])

softmax回归模型

def net(X):

    return softmax(torch.mm(X.view((-1, num_inputs)), W) + b)

定义损失函数

H(y(i),y^(i))=−∑j=1qyj(i)log⁡y^j(i),
H\left(\boldsymbol y^{(i)}, \boldsymbol {\hat y}^{(i)}\right ) = -\sum_{j=1}^q y_j^{(i)} \log \hat y_j^{(i)},
H(y(i),y^(i))=−j=1∑qyj(i)logy^j(i),

ℓ(Θ)=1n∑i=1nH(y(i),y^(i)),
\ell(\boldsymbol{\Theta}) = \frac{1}{n} \sum_{i=1}^n H\left(\boldsymbol y^{(i)}, \boldsymbol {\hat y}^{(i)}\right ),
ℓ(Θ)=n1i=1∑nH(y(i),y^(i)),

ℓ(Θ)=−(1/n)∑i=1nlog⁡y^y(i)(i)
\ell(\boldsymbol{\Theta}) = -(1/n) \sum_{i=1}^n \log \hat y_{y^{(i)}}^{(i)}
ℓ(Θ)=−(1/n)i=1∑nlogy^y(i)(i)

y_hat = torch.tensor([[0.1, 0.3, 0.6], [0.3, 0.2, 0.5]])

y = torch.LongTensor([0, 2])

y_hat.gather(1, y.view(-1, 1))

tensor([[0.1000],

        [0.5000]])

def cross_entropy(y_hat, y):

    return - torch.log(y_hat.gather(1, y.view(-1, 1)))

定义准确率

我们模型训练完了进行模型预测的时候，会用到我们这里定义的准确率。

def accuracy(y_hat, y):

    return (y_hat.argmax(dim=1) == y).float().mean().item()

print(accuracy(y_hat, y))

0.5

# 本函数已保存在d2lzh_pytorch包中方便以后使用。该函数将被逐步改进：它的完整实现将在“图像增广”一节中描述

def evaluate_accuracy(data_iter, net):

    acc_sum, n = 0.0, 0

    for X, y in data_iter:

        acc_sum += (net(X).argmax(dim=1) == y).float().sum().item()

        n += y.shape[0]

    return acc_sum / n

print(evaluate_accuracy(test_iter, net))

0.0921

训练模型

num_epochs, lr = 5, 0.1

# 本函数已保存在d2lzh_pytorch包中方便以后使用

def train_ch3(net, train_iter, test_iter, loss, num_epochs, batch_size,

              params=None, lr=None, optimizer=None):

    for epoch in range(num_epochs):

        train_l_sum, train_acc_sum, n = 0.0, 0.0, 0

        for X, y in train_iter:

            y_hat = net(X)

            l = loss(y_hat, y).sum()

            # 梯度清零

            if optimizer is not None:

                optimizer.zero_grad()

            elif params is not None and params[0].grad is not None:

                for param in params:

                    param.grad.data.zero_()

            l.backward()

            if optimizer is None:

                d2l.sgd(params, lr, batch_size)

            else:

                optimizer.step() 

            train_l_sum += l.item()

            train_acc_sum += (y_hat.argmax(dim=1) == y).sum().item()

            n += y.shape[0]

        test_acc = evaluate_accuracy(test_iter, net)

        print('epoch %d, loss %.4f, train acc %.3f, test acc %.3f'

              % (epoch + 1, train_l_sum / n, train_acc_sum / n, test_acc))

train_ch3(net, train_iter, test_iter, cross_entropy, num_epochs, batch_size, [W, b], lr)

epoch 1, loss 0.7868, train acc 0.748, test acc 0.796

epoch 2, loss 0.5700, train acc 0.813, test acc 0.815

epoch 3, loss 0.5250, train acc 0.826, test acc 0.814

epoch 4, loss 0.4999, train acc 0.833, test acc 0.825

epoch 5, loss 0.4854, train acc 0.837, test acc 0.826

模型预测

现在我们的模型训练完了，可以进行一下预测，我们的这个模型训练的到底准确不准确。

现在就可以演示如何对图像进行分类了。给定一系列图像（第三行图像输出），我们比较一下它们的真实标签（第一行文本输出）和模型预测结果（第二行文本输出）。

X, y = iter(test_iter).next()

true_labels = d2l.get_fashion_mnist_labels(y.numpy())

pred_labels = d2l.get_fashion_mnist_labels(net(X).argmax(dim=1).numpy())

titles = [true + '\n' + pred for true, pred in zip(true_labels, pred_labels)]

d2l.show_fashion_mnist(X[0:9], titles[0:9])

softmax的简洁实现

# 加载各种包或者模块

import torch

from torch import nn

from torch.nn import init

import numpy as np

import sys

sys.path.append("/home/kesci/input")

import d2lzh1981 as d2l

print(torch.__version__)

1.3.0

初始化参数和获取数据

batch_size = 256

train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size, root='/home/kesci/input/FashionMNIST2065')

定义网络模型

num_inputs = 784

num_outputs = 10

class LinearNet(nn.Module):

    def __init__(self, num_inputs, num_outputs):

        super(LinearNet, self).__init__()

        self.linear = nn.Linear(num_inputs, num_outputs)

    def forward(self, x): # x 的形状: (batch, 1, 28, 28)

        y = self.linear(x.view(x.shape[0], -1))

        return y

# net = LinearNet(num_inputs, num_outputs)

class FlattenLayer(nn.Module):

    def __init__(self):

        super(FlattenLayer, self).__init__()

    def forward(self, x): # x 的形状: (batch, *, *, ...)

        return x.view(x.shape[0], -1)

from collections import OrderedDict

net = nn.Sequential(

        # FlattenLayer(),

        # LinearNet(num_inputs, num_outputs)

        OrderedDict([

           ('flatten', FlattenLayer()),

           ('linear', nn.Linear(num_inputs, num_outputs))]) # 或者写成我们自己定义的 LinearNet(num_inputs, num_outputs) 也可以

        )

初始化模型参数

init.normal_(net.linear.weight, mean=0, std=0.01)

init.constant_(net.linear.bias, val=0)

Parameter containing:

tensor([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.], requires_grad=True)

定义损失函数

loss = nn.CrossEntropyLoss() # 下面是他的函数原型

# class torch.nn.CrossEntropyLoss(weight=None, size_average=None, ignore_index=-100, reduce=None, reduction='mean')

定义优化函数

optimizer = torch.optim.SGD(net.parameters(), lr=0.1) # 下面是函数原型

# class torch.optim.SGD(params, lr=, momentum=0, dampening=0, weight_decay=0, nesterov=False)

训练

num_epochs = 5

d2l.train_ch3(net, train_iter, test_iter, loss, num_epochs, batch_size, None, None, optimizer)

epoch 1, loss 0.0031, train acc 0.751, test acc 0.778

epoch 2, loss 0.0022, train acc 0.812, test acc 0.806

epoch 3, loss 0.0021, train acc 0.825, test acc 0.823

epoch 4, loss 0.0020, train acc 0.832, test acc 0.819

epoch 5, loss 0.0019, train acc 0.837, test acc 0.828

L2 Softmax与分类模型的更多相关文章

[ DLPytorch ] 线性回归&Softmax与分类模型&多层感知机
线性回归基础知识实现过程学习笔记批量读取 torch_data = Data.TensorDataset(features, labels) dataset = Data.DataLoader ...
softmax和分类模型
softmax和分类模型内容包含: softmax回归的基本概念如何获取Fashion-MNIST数据集和读取数据 softmax回归模型的从零开始实现,实现一个对Fashion-MNIST训练集 ...
动手学习pytorch——（2）softmax和分类模型
内容太多,捡重要的讲. 在分类问题中,通常用离散的数值表示类别,这里存在两个问题.1.输出值的范围不确定,很难判断值的意义.2.真实标签是离散值,这些离散值与不确定的范围的输出值之间的误差难以衡量. ...
MXNET：分类模型
线性回归模型适用于输出为连续值的情景,例如输出为房价.在其他情景中,模型输出还可以是一个离散值,例如图片类别.对于这样的分类问题,我们可以使用分类模型,例如softmax回归. 为了便于讨论,让我们假 ...
『科学计算』通过代码理解SoftMax多分类
SoftMax实际上是Logistic的推广,当分类数为2的时候会退化为Logistic分类其计算公式和损失函数如下, 梯度如下, 1{条件} 表示True为1,False为0,在下图中亦即对于每个 ...
Spark机器学习4·分类模型(spark-shell)
线性模型逻辑回归--逻辑损失(logistic loss) 线性支持向量机(Support Vector Machine, SVM)--合页损失(hinge loss) 朴素贝叶斯(Naive Ba ...
大白话5分钟带你走进人工智能-第二十节逻辑回归和Softmax多分类问题(5)
大白话5分钟带你走进人工智能-第二十节逻辑回归和Softmax多分类问题(5) 上一节中,我们讲 ...
Edgeboard试用 — 基于CIFAR10分类模型的移植
前言在上一次的测试中,我们按照官方给的流程,使用EasyDL快速实现了一个具有性别检测功能的人脸识别系统,那么今天,我们将要试一下通过Paddlepaddle从零开始,训练一个自己的多分类模型,并进 ...
NLP学习（2）----文本分类模型
实战:https://github.com/jiangxinyang227/NLP-Project 一.简介: 1.传统的文本分类方法:[人工特征工程+浅层分类模型] (1)文本预处理: ①(中文) ...

随机推荐

Servlet(四)----Request
## Request 1.request对象和response对象的原理 1.request和response对象是由服务器创建的.我们来使用他们. 2.request对象是来获取请求消息,resp ...
题解 SP2916 【GSS5 - Can you answer these queries V】
前言最近沉迷于数据结构,感觉数据结构很有意思. 正文分析先来分类讨论一下 1. \(x2<y1\) 如果 \(y1<x2\) 的话,答案 \(=\max \limits_{ y1 \ ...
Python 趣题
如何优雅判断list为空 list_temp = [] if list_temp: # 存在值即为真 else: # list_temp是空的在Python中,False,0,'',[],{},() ...
mongodb_2
一.游标在mongodb中,底层使用js引擎进行各种操作,所以我们在命令行窗口,可直接执行js代码. #使用for循环,插入1000条数据. > for (var i=0;i<1000; ...
结合生活，剖析《生产者消费者模型》-java多线程（一）
博客园的园友们好,看博客园上各位大佬的文章,已陪伴了我程序员职业的三年, 如今自己同样希望能把自己从小白到菜鸟的成长过程分享给大家.不定期更新!!! 首先我本人智商不高,理解问题十分吃力,完全不属于天 ...
js事件的获取
获取元素样式属性 Method DES clientWidth 获取元素宽度 clientHeight 获取元素高度(内容+内边距) document.body.clientWidth 获取body宽 ...
iOS mmap
一.常规文件操作常规文件操作(read/write)有那几个重要步骤: 进程发起读文件请求内核通过查找进程文件符表,定位到内核已打开文件集上的文件信息,从而找到此文件的 inode inode 在 ...
Python math库和random库
1.math库 >>> from math import * >>> 2*pi 6.283185307179586 >>> e 2.7182818 ...
1～n的之间的k个数组成和为n的方案数（动态规划）
绯色的子弹 Description 众所周知,夏季奥林匹克运动会时隔56年第二次在东京举办,紧接着出来的<名侦探柯南 M24绯色的子弹>竟也是有奥运会的背景,最重要的是重归主线!!!(赤井 ...
Maximum splitting
Maximum splitting You are given several queries. In the i-th query you are given a single positive i ...

L2 Softmax与分类模型

softmax和分类模型

softmax的基本概念

交叉熵损失函数

模型训练和预测

获取Fashion-MNIST训练集和读取数据

get dataset

softmax从零开始的实现

获取训练集数据和测试集数据

模型参数初始化

对多维Tensor按维度操作

定义softmax操作

softmax回归模型

定义损失函数

定义准确率

训练模型

模型预测

softmax的简洁实现

初始化参数和获取数据

定义网络模型

初始化模型参数

定义损失函数

定义优化函数

训练

L2 Softmax与分类模型的更多相关文章

随机推荐

热门专题