太棒啦!到目前为止,你已经了解了如何定义神经网络、计算损失,以及更新网络权重。不过,现在你可能会思考以下几个方面:

0x01 数据集

通常,当你需要处理图像、文本、音频或视频数据时,你可以使用标准的python包将数据加载到numpy数组中。然后你可以将该数组转换成一个torch.*Tensor

  • 对于图像,Pillow、OpenCV这些包将有所帮助。
  • 对于音频,可以使用scipy和librosa包。
  • 对于文本,无论是基于原始的Python还是Cython的加载,或者NLTK和SpaCy都将有所帮助。

具体对于图像来说,我们已经创建了一个名为torchvision的包,它为像Imagenet、CIFAR10、MNIST等公共数据集提供了数据加载器,并为图像提供了数据转换器,即torchvision.datasetstorch.utils.data.DataLoader

这提供了极大的便利,避免了编写样板代码。

对于本教程,我们将使用CIFAR10数据集。它包含以下10个分类:飞机、汽车、鸟、猫、鹿、狗、青蛙、马、轮船和卡车。CIFAR-10数据集中的图像大小为3x32x32,即大小为32x32像素的3通道彩色图像。

0x02 训练一个图像分类器

我们将按顺序执行以下步骤:

  1. 使用torchvision加载并归一化CIFAR10训练和测试数据集
  2. 定义一个卷积神经网络
  3. 定义一个损失函数
  4. 利用训练数据来训练网络
  5. 利用测试数据来测试网络

1. 加载和归一化CIFAR10

使用torchvision可以很容易地加载CIFAR10。

  1. import torch
  2. import torchvision
  3. import torchvision.transforms as transforms

torchvision数据集的输出结果为像素值在[0,1]范围内的PILImage图像。我们将它们转换成标准化范围[-1,1]的张量:

  1. transform = transforms.Compose(
  2. [transforms.ToTensor(),
  3. transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))])
  4. trainset = torchvision.datasets.CIFAR10(root='./data', train=True,
  5. download=True, transform=transform)
  6. trainloader = torch.utils.data.DataLoader(trainset, batch_size=4,
  7. shuffle=True, num_workers=2)
  8. testset = torchvision.datasets.CIFAR10(root='./data', train=False,
  9. download=True, transform=transform)
  10. testloader = torch.utils.data.DataLoader(testset, batch_size=4,
  11. shuffle=False, num_workers=2)
  12. classes = ('plane', 'car', 'bird', 'cat',
  13. 'deer', 'dog', 'frog', 'horse', 'ship', 'truck')

输出结果:

  1. Files already downloaded and verified
  2. Files already downloaded and verified

为了增添一些乐趣,我们来展示一些训练图片:

  1. import matplotlib.pyplot as plt
  2. import numpy as np
  3. # functions to show an image
  4. def imshow(img):
  5. img = img / 2 + 0.5 # unnormalize
  6. npimg = img.numpy()
  7. plt.imshow(np.transpose(npimg, (1, 2, 0)))
  8. # get some random training images
  9. dataiter = iter(trainloader)
  10. images, labels = dataiter.next()
  11. # show images
  12. imshow(torchvision.utils.make_grid(images))
  13. # print labels
  14. print(' '.join('%5s' % classes[labels[j]] for j in range(4)))

输出结果:

  1. frog ship bird truck

2. 定义一个卷积神经网络

从前面“神经网络”一节中拷贝神经网络并对其进行修改,使它接受3通道的图像(而不是原先定义的单通道图像)。

  1. from torch.autograd import Variable
  2. import torch.nn as nn
  3. import torch.nn.functional as F
  4. class Net(nn.Module):
  5. def __init__(self):
  6. super(Net, self).__init__()
  7. self.conv1 = nn.Conv2d(3, 6, 5)
  8. self.pool = nn.MaxPool2d(2, 2)
  9. self.conv2 = nn.Conv2d(6, 16, 5)
  10. self.fc1 = nn.Linear(16 * 5 * 5, 120)
  11. self.fc2 = nn.Linear(120, 84)
  12. self.fc3 = nn.Linear(84, 10)
  13. def forward(self, x):
  14. x = self.pool(F.relu(self.conv1(x)))
  15. x = self.pool(F.relu(self.conv2(x)))
  16. x = x.view(-1, 16 * 5 * 5)
  17. x = F.relu(self.fc1(x))
  18. x = F.relu(self.fc2(x))
  19. x = self.fc3(x)
  20. return x
  21. net = Net()

3. 定义损失函数和优化器

让我们用一个分类交叉熵的损失函数,以及带动量的SGD:

  1. import torch.optim as optim
  2. criterion = nn.CrossEntropyLoss()
  3. optimizer = optim.SGD(net.parameters(), lr=0.001, momentum=0.9)

4. 训练网络

这里正是事情开始变得有趣的地方。我们只需循环遍历我们的数据迭代器,并将输入量输入到网络并进行优化:

  1. for epoch in range(2): # loop over the dataset multiple times
  2. running_loss = 0.0
  3. for i, data in enumerate(trainloader, 0):
  4. # get the inputs
  5. inputs, labels = data
  6. # wrap them in Variable
  7. inputs, labels = Variable(inputs), Variable(labels)
  8. # zero the parameter gradients
  9. optimizer.zero_grad()
  10. # forward + backward + optimize
  11. outputs = net(inputs)
  12. loss = criterion(outputs, labels)
  13. loss.backward()
  14. optimizer.step()
  15. # print statistics
  16. running_loss += loss.data[0]
  17. if i % 2000 == 1999: # print every 2000 mini-batches
  18. print('[%d, %5d] loss: %.3f' %
  19. (epoch + 1, i + 1, running_loss / 2000))
  20. running_loss = 0.0
  21. print('Finished Training')

输出结果:

  1. [1, 2000] loss: 2.204
  2. [1, 4000] loss: 1.855
  3. [1, 6000] loss: 1.677
  4. [1, 8000] loss: 1.577
  5. [1, 10000] loss: 1.508
  6. [1, 12000] loss: 1.485
  7. [2, 2000] loss: 1.403
  8. [2, 4000] loss: 1.392
  9. [2, 6000] loss: 1.355
  10. [2, 8000] loss: 1.332
  11. [2, 10000] loss: 1.300
  12. [2, 12000] loss: 1.282
  13. Finished Training

5. 在测试数据上测试网络

我们已经利用训练数据集对网络训练了2次。但是,我们需要检查网络是否已经学到了什么。

我们将通过预测神经网络输出的类标签来检查它,并根据实际情况对其进行检查。如果预测是正确的,那么我们将该样本添加到正确的预测列表中。

OK!第一步,让我们展示测试集中的一个图像,以便于我们熟悉它。

  1. dataiter = iter(testloader)
  2. images, labels = dataiter.next()
  3. # print images
  4. imshow(torchvision.utils.make_grid(images))
  5. print('GroundTruth: ', ' '.join('%5s' % classes[labels[j]] for j in range(4)))

输出结果:

  1. GroundTruth: cat ship ship plane

现在让我们看看神经网络认为上面例子中的对象是什么:

  1. outputs = net(Variable(images))

输出结果是10个类的能量值。如果一个类的能量值越高,那么网络就越可能认为图像是该特定类。所以,我们来获取最高能量值对应的索引:

  1. _, predicted = torch.max(outputs.data, 1)
  2. print('Predicted: ', ' '.join('%5s' % classes[predicted[j]]
  3. for j in range(4)))

输出结果:

  1. Predicted: cat car car ship

结果看起来相当不错。

下面,我们看一下该网络在整个数据集上的表现。

  1. correct = 0
  2. total = 0
  3. for data in testloader:
  4. images, labels = data
  5. outputs = net(Variable(images))
  6. _, predicted = torch.max(outputs.data, 1)
  7. total += labels.size(0)
  8. correct += (predicted == labels).sum()
  9. print('Accuracy of the network on the 10000 test images: %d %%' % (
  10. 100 * correct / total))

输出结果:

  1. Accuracy of the network on the 10000 test images: 53 %

结果看起来比随机概率要好,随机概率为10%的准确率(随机从10个类中挑选一个类)。看起来似乎该网络学到了一些东西。

下面,我们看一下到底是哪些类别表现的很好,哪些类别表现的不好:

  1. class_correct = list(0. for i in range(10))
  2. class_total = list(0. for i in range(10))
  3. for data in testloader:
  4. images, labels = data
  5. outputs = net(Variable(images))
  6. _, predicted = torch.max(outputs.data, 1)
  7. c = (predicted == labels).squeeze()
  8. for i in range(4):
  9. label = labels[i]
  10. class_correct[label] += c[i]
  11. class_total[label] += 1
  12. for i in range(10):
  13. print('Accuracy of %5s : %2d %%' % (
  14. classes[i], 100 * class_correct[i] / class_total[i]))

输出结果:

  1. Accuracy of plane : 43 %
  2. Accuracy of car : 67 %
  3. Accuracy of bird : 27 %
  4. Accuracy of cat : 60 %
  5. Accuracy of deer : 44 %
  6. Accuracy of dog : 36 %
  7. Accuracy of frog : 64 %
  8. Accuracy of horse : 56 %
  9. Accuracy of ship : 55 %
  10. Accuracy of truck : 73 %

Ok,下一步我们将学习如何在GPU上运行神经网络。

0x03 在GPU上训练

将神经网络转移到GPU上,就像将一个张量转移到GPU上一样。这将递归地遍历所有模块,并将它们的参数和缓冲器转换为CUDA张量:

  1. net.cuda()

记住,你还必须将每一步的输入和目标都发送到GPU上:

  1. inputs, labels = Variable(inputs.cuda()), Variable(labels.cuda())

为什么与CPU相比,我没有看到速度的明显提升?那是因为你的网络实在是太小了。

练习: 尝试增加网络的宽度(第一个nn.Conv2d的参数2,以及第二个nn.Conv2d的参数1,它们必须为同一个数字),然后看下速度提升效果。

实现的目标:

  • 以更高的角度理解PyTorch的Tensor库和神经网络
  • 训练一个小型的神经网络来对图像进行分类

0x04 在多个GPU上训练

如果你想使用所有GPU来得到速度更大的提升,可以阅读下一节“数据并行性”。

0x05 扩展阅读

【PyTorch深度学习60分钟快速入门 】Part4:训练一个分类器的更多相关文章

  1. 【PyTorch深度学习60分钟快速入门 】Part1:PyTorch是什么?

      0x00 PyTorch是什么? PyTorch是一个基于Python的科学计算工具包,它主要面向两种场景: 用于替代NumPy,可以使用GPU的计算力 一种深度学习研究平台,可以提供最大的灵活性 ...

  2. 【PyTorch深度学习60分钟快速入门 】Part0:系列介绍

      说明:本系列教程翻译自PyTorch官方教程<Deep Learning with PyTorch: A 60 Minute Blitz>,基于PyTorch 0.3.0.post4 ...

  3. 【PyTorch深度学习60分钟快速入门 】Part5:数据并行化

      在本节中,我们将学习如何利用DataParallel使用多个GPU. 在PyTorch中使用多个GPU非常容易,你可以使用下面代码将模型放在GPU上: model.gpu() 然后,你可以将所有张 ...

  4. 【PyTorch深度学习60分钟快速入门 】Part3:神经网络

      神经网络可以通过使用torch.nn包来构建. 既然你已经了解了autograd,而nn依赖于autograd来定义模型并对其求微分.一个nn.Module包含多个网络层,以及一个返回输出的方法f ...

  5. 【PyTorch深度学习60分钟快速入门 】Part2:Autograd自动化微分

      在PyTorch中,集中于所有神经网络的是autograd包.首先,我们简要地看一下此工具包,然后我们将训练第一个神经网络. autograd包为张量的所有操作提供了自动微分.它是一个运行式定义的 ...

  6. pytorch深度学习60分钟闪电战

    https://pytorch.org/tutorials/beginner/deep_learning_60min_blitz.html 官方推荐的一篇教程 Tensors #Construct a ...

  7. Vue.js 60 分钟快速入门

    Vue.js 60 分钟快速入门 转载 作者:keepfool 链接:http://www.cnblogs.com/keepfool/p/5619070.html Vue.js介绍 Vue.js是当下 ...

  8. 不会几个框架,都不好意思说搞过前端: Vue.js - 60分钟快速入门

    Vue.js——60分钟快速入门   Vue.js是当下很火的一个JavaScript MVVM库,它是以数据驱动和组件化的思想构建的.相比于Angular.js,Vue.js提供了更加简洁.更易于理 ...

  9. Vue.js——60分钟快速入门(转)

    vue:Vue.js——60分钟快速入门 <!doctype html> <html lang="en"> <head> <meta ch ...

随机推荐

  1. BZOJ1880或洛谷2149 [SDOI2009]Elaxia的路线

    BZOJ原题链接 洛谷原题链接 显然最长公共路径是最短路上的一条链. 我们可以把最短路经过的边看成有向边,那么组成的图就是一张\(DAG\),这样题目要求的即是两张\(DAG\)重合部分中的最长链. ...

  2. 1.编译cartographer ROS

    1.系统要求 cartographer ROS与Cartographer要求一样,即 64-bit, modern CPU (e.g. 3rd generation i7) 16 GB RAM Ubu ...

  3. Android SDK Manager 无法打开

    环境变量已经设置(安装JDK8后 其实无需设置,之前记得Win7有个巧妙的地方是创建了3个快捷方式到某文件夹,现在Win10上直接将java.exe等放到System32目录下). 但是依然不行,网上 ...

  4. [C#]SmtpClient发送邮件

    这几天开发的从数据库抓起数据处理完已邮件发出来,只实现的To的个人的发送,To的群组,CC的个人和群组,BCC的个人和群组都没有成功.试了好久,感觉是Exchange服务器配置的问题,但又无法访问Ex ...

  5. [uboot] (第四章)uboot流程——uboot编译流程

    http://blog.csdn.net/ooonebook/article/details/53000893 以下例子都以project X项目tiny210(s5pv210平台,armv7架构)为 ...

  6. 在excel中如何利用vba通过网址读取网页title(网址是https的)?

    昨天在百度知道上提了这个问题,我保存了些百度知道我回答的网址,想利用excel直接读取出网址的title,请问vba代码怎么写?(要支持https的) excel大神帮我回答了,在这记录下: Func ...

  7. Spring通过在META-INF/spring.handlers中的属性进行配置文件解析

    在Spring的入口函数refresh()之中进行的. AbstractApplicationContext ConfigurableListableBeanFactory beanFactory = ...

  8. Shell脚本-基本运算符

    跟着RUNOOB网站的教程学习的笔记 shell和其他编程语言一样,支持多种运算符,包括: 算术运算符 关系运算符 布尔运算符 字符串运算符 文件测试运算符 expr是一款表达式计算公式,使用它能完成 ...

  9. Spring 使用xml配置aop

    1.xml文件需要引入aop命名空间 2.xml内容: <?xml version="1.0" encoding="UTF-8"?> <bea ...

  10. Mybatis延迟加载、缓存

    一.Mybatis中的延迟加载 1.延迟加载背景:Mybatis中Mapper配置文件中的resultMap可以实现高级映射(使用association.collection实现一对一及一对多(多对多 ...