0702-计算机视觉工具包torchvision

一、torchvision 概述
二、通过 torchvision 加载模型
三、通过 torchvision 加载并处理数据集
四、通过 torchvision 拼接并保存图片

pytorch完整教程目录：https://www.cnblogs.com/nickchen121/p/14662511.html

一、torchvision 概述

计算机视觉是深度学习中最重要的一类应用，为了方便研究者使用，torch 专门开发了一个视觉工具包 torchvision，这个包独立于 torch，需要使用 pip install torchvision 进行安装。

之前的我们已经使用过它的部分功能，在这里我们在做一个系统的介绍，它主要包含以下三个功能：

models：提供深度学习中各种经典网络的网络结构以及训练好的模型，包括 Alex-Net、VGG 系列、ResNet 系列、Inception 系列等
datasets：提供常用的数据集加载，设计上都是集成 torch.utils.data.Dataset，主要包括 MNIST、CIFAR10/100、ImageNet、COCO 等
transforms：提供常用的数据预处理操作，主要包括对 Tensor 以及 PIL Image 对象的操作

二、通过 torchvision 加载模型

from torchvision import models

from torch import nn

# 加载预训练好的模型，如果不存在会下载

# 预训练好的模型保存在 ~/.torch/modes/ 下面

resnet34 = models.resnet34(pretrained=True, num_classes=1000)

# 修改最后的全连接层为 10 分类问题（默认是 ImageNet 上的 1000 分类）

resnet34.fc = nn.Linear(512, 10)

三、通过 torchvision 加载并处理数据集

from torchvision import datasets

from torchvision import transforms as T

# 指定数据集路径为 data，如果数据集不存在则进行下载

# 通过 train=False 获取测试集

normalize = T.Normalize(mean=[0.4, 0.4, 0.4], std=[0.2, 0.2, 0.2])

transform = T.Compose([

    T.RandomResizedCrop(224),

    T.RandomHorizontalFlip(),

    T.ToTensor(),  # 把图片转成 Tensor，归一化至 [0,1]

    T.Lambda(lambda x: x.repeat(3, 1, 1)),  # 把图片转为 3 通道的

    normalize,

])

dataset = datasets.MNIST('data/',

                         download=True,

                         train=False,

                         transform=transform)

Transforms 中涵盖了大部分对 Tensor 和 PIL Image 的常用处理，这个转换通常分为两步：

第一步：构建转换操作，例如 transf = transforms.Normalize(mean=x, std=y)
第二步：执行转换操作，例如 otuput = transf(inp)

import torch as t

# 构建随机噪声，图片如下图所示

to_pil = T.ToPILImage()

to_pil(t.rand(3, 64, 64))

四、通过 torchvision 拼接并保存图片

torchvision 还提供了两个常用的函数：

make_grid，它能把多张图片拼接在一个网格中
save_img，它能把 Tensor 保存成图片

len(dataset)

from torch.utils.data import DataLoader

dataloader = DataLoader(dataset, shuffle=True, batch_size=16)

from torchvision.utils import make_grid, save_image

dataiter = iter(dataloader)

dataiter

img = make_grid(next(dataiter)[0], 4)  # 拼接成 4*4 网格图片，并且会转成 3 通道，如下图所示

to_img = T.ToPILImage()

to_img(img)

save_image(img, 'a.png')

from PIL import Image

Image.open('a.png')

0702-计算机视觉工具包torchvision的更多相关文章

深度学习框架PyTorch一书的学习-第五章-常用工具模块
https://github.com/chenyuntc/pytorch-book/blob/v1.0/chapter5-常用工具/chapter5.ipynb 希望大家直接到上面的网址去查看代码,下 ...
【深度学习框架】使用PyTorch进行数据处理
在深度学习中,数据的处理对于神经网络的训练来说十分重要,良好的数据(包括图像.文本.语音等)处理不仅可以加速模型的训练,同时也直接关系到模型的效果.本文以处理图像数据为例,记录一些使用PyTorc ...
[PyTorch 学习笔记] 2.2 图片预处理 transforms 模块机制
PyTorch 的数据增强我们在安装PyTorch时,还安装了torchvision,这是一个计算机视觉工具包.有 3 个主要的模块: torchvision.transforms: 里面包括常用的 ...
pytorch（09）transform模块(基础)
transforms transforms运行机制 torchvision.transforms:常用的图像预处理方法 torchvision.datasets:常用数据及的dataset实现,mni ...
【分享】2017 开源中国新增开源项目排行榜 TOP 100
2017 年开源中国社区新增开源项目排行榜 TOP 100 新鲜出炉! 这份榜单根据 2017 年开源中国社区新收录的开源项目的关注度和活跃度整理而来,这份最受关注的 100 款开源项目榜单在一定程度 ...
深度学习框架PyTorch一书的学习-第四章-神经网络工具箱nn
参考https://github.com/chenyuntc/pytorch-book/tree/v1.0 希望大家直接到上面的网址去查看代码,下面是本人的笔记本章介绍的nn模块是构建与autogr ...
Faster R-CNN：详解目标检测的实现过程
本文详细解释了 Faster R-CNN 的网络架构和工作流,一步步带领读者理解目标检测的工作原理,作者本人也提供了 Luminoth 实现,供大家参考. Luminoth 实现:https:// ...
深度学习论文翻译解析（四）：Faster R-CNN: Down the rabbit hole of modern object detection
论文标题:Faster R-CNN: Down the rabbit hole of modern object detection 论文作者:Zhi Tian , Weilin Huang, Ton ...
[PyTorch 学习笔记] 3.1 模型创建步骤与 nn.Module
本章代码:https://github.com/zhangxiann/PyTorch_Practice/blob/master/lesson3/module_containers.py 这篇文章来看下 ...

随机推荐

es6 快速入门 —— 函数
其他章节请看: es6 快速入门系列函数函数是所有编程语言的重要组成部分,es6之前函数语法一直没什么变化,遗留了许多问题,javaScript开发者多年来不断抱怨,es6终于决定大力度更新函数 ...
基于CefSharp开发浏览器（八）浏览器收藏夹栏
一.前言上一篇文章基于CefSharp开发(七)浏览器收藏夹菜单简单实现了部分收藏夹功能如(添加文件夹.添加收藏.删除.右键菜单部分功能) 后续代码中对MTreeViewItem进行了扩展,增 ...
c++指针类型的函数
下面随笔将讲述c++指针类型的函数. 原创链接:https://www.cnblogs.com/iFrank/p/14444379.html 指针类型的函数若函数的返回值是指针,该函数就是指针类型的 ...
Hi3559AV100外接UVC/MJPEG相机实时采图设计（一）:Linux USB摄像头驱动分析
下面将给出Hi3559AV100外接UVC/MJPEG相机实时采图设计的整体流程,主要实现是通过V4L2接口将UVC/MJPEG相机采集的数据送入至MPP平台,经过VDEC.VPSS.VO最后通过HD ...
10个顶级Python实用库，推荐你试试！
为什么我喜欢Python?对于初学者来说,这是一种简单易学的编程语言,另一个原因:大量开箱即用的第三方库,正是23万个由用户提供的软件包使得Python真正强大和流行. 在本文中,我挑选了15个最有用 ...
关于个Base64,MD5,16进制的转换
1,待签名数据以UTF-8的格式转字节流,对字节流进行MD5算法得到的签名字节流,再转换为16进制字符串,即生成了数字签名. byte[] targetData = md5.ComputeHash(S ...
STL之string容器
string string封装了char*,管理这个字符串,是一个char*型的容器. string的相关操作头文件 #include<string> string构造函数 string ...
WAV16T VPX国产化千兆交换板
WAV16T是基于盛科CTC5160设计的国产化3U三层千兆VPX交换板,提供16路千兆电口,采用龙芯 2K1000处理器.支持常规的L2/L3协议,支持Telnet.SNMP.WEB,CLI等多 ...
【odoo14】第十六章、odoo web库（OWL）
odoo14引入了名为OWL(Odoo Web Library)的JavaScript框架.OWL是以组件为基础的UI框架,通过QWeb模板作为架构.OWL与传统的组件系统相比更快,并引入了一些新的特 ...
【图像处理】OpenCV+Python图像处理入门教程（五）阈值处理
这篇随笔介绍使用OpenCV进行图像处理的第五章阈值处理. 5 阈值处理阈值是指像素到达某临界值.阈值处理表示像素到达某临界值后,对该像素点进行操作和处理. 例如:设定一幅图像素阈值为200,则 ...

0702-计算机视觉工具包torchvision

0702-计算机视觉工具包torchvision

一、torchvision 概述

二、通过 torchvision 加载模型

三、通过 torchvision 加载并处理数据集

四、通过 torchvision 拼接并保存图片

0702-计算机视觉工具包torchvision的更多相关文章

随机推荐

热门专题