卷积

Conv2d

2D卷积函数和参数如下

  1. nn.Conv2d(
  2. in_channels,
  3. out_channels,
  4. kernel_size,
  5. stride=1,
  6. padding=0,
  7. dilation=1,
  8. groups=1,
  9. bias=True,
  10. padding_mode='zeros'
  11. )

参数说明:

in_channels: 输入通道数,RGB图片一般是3

out_channels: 输出通道,也可以理解为kernel的数量

kernel_size:kernel的和宽设置

kernel 输出尺寸计算:

\(\lfloor(n_h -k_h+p_h)/s_h+1\rfloor *\lfloor(n_w -k_w+p_w)/s_w+1\rfloor\)

stride:kernel移动的步伐

padding:在四周加入padding的数量,默认补0

dilation:

空洞就是计算的时候,对输入层进行挖空操作,如下图所示(图片来源于网络)

group

分组计算,输出的feature map数量还是一样,只不过,每一个输出feature map 并不是用所有的输入feature map 计算的,而是分组计算,这样可以并行化并且减少计算成本

假设输入为12个feature map , 输出为6个通道,常规卷积Conv参数\(6*12*k^2\),但是假设goup=3,那么参数为 3个 \(2*4*k^2\),这是因为计算的时候,输入的feature map 和 计算的kernel 都要分成3组(如下图所示,图片来源网络)。

bias: 如果bias=True,添加偏置

Conv1d

一维卷积的特点是,卷积核有一个维度和特征的维度是保持一致的,卷积核的另外一个维度是作用在sequenc length上面。

  1. Conv1d(
  2. in_channels,
  3. out_channels,
  4. kernel_size,
  5. stride=1,
  6. padding=0,
  7. dilation=1,
  8. groups=1,
  9. bias=True
  10. )

in_channels: – 输入信号的通道。即为词向量的维度。2维RGB图像卷积中,为3, 一般用在序列模型中,例如一句话中的单词表征为300,那么输入就设置为300

out_channels: 输出多少个channel

kernel_size:设置卷积尺寸,其中一个维度为in_channels,所以实际上卷积大小为kernel_size*in_channels

stride:卷积步长,作用在sequence len上面

padding:在序列两边补0

dilation:卷积核元素之间的间距,同上面conv2d

groups: 同上面conv2d

bias: 如果bias=True,添加偏置

尺寸计算方法

假设输入尺寸为 (batch, sequence len, feature_len) 需要将维度转换为( batch , feature_len, sequence len),卷积核的尺寸为(feature_len, kernel_size) , 输出为( batch, kernel_size, Lout) ,其中Lout的计算方法如下:

\(L_{out} = \lfloor(feature\_len -k_h+p_h)/s_h+1\rfloor\)

转置卷积

反卷积(转置卷积)和正常卷积相反,具有尺寸扩张作用,也可以理解为带参数学习的上采样功能,主要可以用到GAN中的。

转置卷积的操作如下图所示:

相当于将被卷积的2*2 feature map进行padding,之后再做卷积操作。

设卷积核大小为k*k,输入为方形矩阵

  1. 对输入进行四边补零,单边补零的数量为k-1

  2. 将卷积核旋转180°,在新的输入上进行直接卷积 (上下翻转,左右翻转)

在pytorch中转置卷积函数如下,其中参数和传统卷积基本一致

  1. nn.ConvTranspose2d(
  2. in_channels,
  3. out_channels,
  4. kernel_size,
  5. stride=1,
  6. padding=0,
  7. output_padding=0,
  8. groups=1,
  9. bias=True,
  10. dilation=1,
  11. padding_mode='zeros'
  12. )

尺寸计算方法

简化版

\(out = (in\_{channel}-1) * stride + kernel\_size\)

完整版

\(out = (in\_{channel}-1) * stride -2*padding_size + dilation * (kernel\_size-1)+output\_padding +1\)

推荐一个细致讲解转置卷积的帖子:https://blog.csdn.net/tsyccnh/article/details/87357447

池化函数

nn.MaxPool2d

  1. nn.MaxPool2d(
  2. kernel_size,
  3. stride=None,
  4. padding=0,
  5. dilation=1,
  6. return_indices=False,
  7. ceil_mode=False
  8. )

其中,

return_indices: 可以返回池化的位置,主要用于自编码其中池化上采样(最大池化)

ceil_mode: 表示尺寸向上取整,主要用于kernel_size无法被长宽整除的时候。

其他参数和上述卷积参数含义一样。

主要功能是进行特征缩减,同时保留最大信息,2*2的MaxPoold执行操作如下图所示(来源于cs231n )

pytorch中的pooling函数,默认kernel size和stride是一样的

  1. pool2d = nn.MaxPool2d(3) # 这里省略stride设置 pool2d(X)
  2. # 也可以手动设置更详细的:
  3. pool2d = nn.MaxPool2d(3, padding=1, stride=2)

nn.AvgPool2d

  1. nn.AvgPool2d(
  2. kernel_size,
  3. stride=None,
  4. padding=0,
  5. ceil_mode=False,
  6. count_include_pad=True,
  7. divisor_override=None
  8. )

其中:

count_include_pad:求平均值的时候,是否考虑将padding加入计算,divisor_override:可以设置分母,例如2*2均值就是除以4,但是我们可以设置其他值

其他参数和上述nn.MaxPool2d含义一样

主要操作和nn.MaxPool2d一样,不同的是,这里做的是求平均操作。

nn.MaxUnpool2d

反池化操作,就是池化的反向操作,具体如下图所示(图片来源网络):

  1. nn.MaxUnpool2d(
  2. kernel_size,
  3. stride=None,
  4. padding=0
  5. )

一个例子,首先使用MaxPool2d采样,然后保留采样位置,最后使用采样位置indices来进行反池化操作。

  1. img = torch.randn((28,28))
  2. max_pool_l = nn.MaxPool2d((2,2),stride=(2,2),return_indices=True)
  3. img_pool,indices = max_pool_l(img)
  4. maxUpPool_l = nn.MaxUnpooled((2,2),stride=(2,2))
  5. img_Up = maxUpPool_l(input_i , indices)

Pytorch系列:(五)CNN的更多相关文章

  1. CSS 魔法系列:纯 CSS 绘制各种图形《系列五》

    我们的网页因为 CSS 而呈现千变万化的风格.这一看似简单的样式语言在使用中非常灵活,只要你发挥创意就能实现很多比人想象不到的效果.特别是随着 CSS3 的广泛使用,更多新奇的 CSS 作品涌现出来. ...

  2. Netty4.x中文教程系列(五)编解码器Codec

    Netty4.x中文教程系列(五)编解码器Codec 上一篇文章详细解释了ChannelHandler的相关构架设计,版本和设计逻辑变更等等. 这篇文章主要在于讲述Handler里面的Codec,也就 ...

  3. WCF编程系列(五)元数据

    WCF编程系列(五)元数据   示例一中我们使用了scvutil命令自动生成了服务的客户端代理类: svcutil http://localhost:8000/?wsdl /o:FirstServic ...

  4. JVM系列五:JVM监测&工具

    JVM系列五:JVM监测&工具[整理中]  http://www.cnblogs.com/redcreen/archive/2011/05/09/2040977.html 前几篇篇文章介绍了介 ...

  5. SQL Server 2008空间数据应用系列五:数据表中使用空间数据类型

    原文:SQL Server 2008空间数据应用系列五:数据表中使用空间数据类型 友情提示,您阅读本篇博文的先决条件如下: 1.本文示例基于Microsoft SQL Server 2008 R2调测 ...

  6. VSTO之旅系列(五):创建Outlook解决方案

    原文:VSTO之旅系列(五):创建Outlook解决方案 本专题概要 引言 Outlook对象模型 自定义Outlook窗体 小结 一.引言 在上一个专题中,为大家简单介绍了下如何创建Word解决方案 ...

  7. 系列五AnkhSvn

    原文:系列五AnkhSvn AnkhSvn介绍 AnkhSVN是一款在VS中管理Subversion的插件,您可以在VS中轻松的提交.更新.添加文件,而不用在命令行或资源管理器中提交.而且该插件属于开 ...

  8. java多线程系列(五)---synchronized ReentrantLock volatile Atomic 原理分析

    java多线程系列(五)---synchronized ReentrantLock volatile Atomic 原理分析 前言:如有不正确的地方,还望指正. 目录 认识cpu.核心与线程 java ...

  9. java基础解析系列(五)---HashMap并发下的问题以及HashTable和CurrentHashMap的区别

    java基础解析系列(五)---HashMap并发下的问题以及HashTable和CurrentHashMap的区别 目录 java基础解析系列(一)---String.StringBuffer.St ...

  10. Pytorch系列教程

    介绍 不久前Pytorch发布了1.0版本,官网的doc页也更新了.这里说下官网的教程很实用,边学pytorch搭网络边学NLP-图像等领域的先进技术. 官网的教程都是英文的,本人就用这个系列博客做个 ...

随机推荐

  1. 蛇形填数(JAVA语言)

    package 第三章; import java.util.Scanner; public class 蛇形填数 { public static void main(String[] args)  { ...

  2. Android Studio中批量注释 Java代码

    •ctrl+/ 选中需要注释的多行代码,然后按 ctrl + / 实现多行快速注释: 再次按下 ctrl + / 取消注释. •ctrl+shift+/ 选中一行或几行代码,按 ctrl + shif ...

  3. 关于ArrayList 中子方法 -- contains 疑惑解决

    写之前先看下 ArrayList 子函数 contains 的Api 怎么介绍: boolean contains(Object o)           如果此列表中包含指定的元素,则返回 true ...

  4. matlab帮助文档

    matlab的纯文本帮助命令有多种,help.lookfor.which.doc.get.type等 help命令  help命令用来查询一个函数的使用方式. help fun %fun是函数名称   ...

  5. aws EKS

    登陆aws账号 1)找到eks 相关的项目,并进入 2)填写集群的名称,然后下一步 3)集群设置页面,添加集群服务角色 (aws eks cluster role) 4)继续集群配置 5)集群创建完成 ...

  6. ambari介绍及安装

    Ambari简介 Ambari概述 Apache Ambari是一种基于Web的工具,支持Apache Hadoop集群的创建.管理和监控.Ambari已支持大多数Hadoop组件,包括HDFS.Ma ...

  7. Scrum Meeting 目录 && alpha 第一次Scrum Meeting博客

    是兄弟就来摸鱼小组 Scrum Meeting 博客汇总 一.Alpha阶段 标号 标题 1 [alpha]第一次Scrum Meeting(见本文) 二.Beta阶段 会议安排 时间 4月23日8时 ...

  8. ML.NET 示例:图像分类模型训练-首选API(基于原生TensorFlow迁移学习)

    ML.NET 版本 API 类型 状态 应用程序类型 数据类型 场景 机器学习任务 算法 Microsoft.ML 1.5.0 动态API 最新 控制台应用程序和Web应用程序 图片文件 图像分类 基 ...

  9. window.location 与window.open区别

    window.location 与window.open区别 1.window.location是window对象的属性,而window.open是window对象的方法   window.locat ...

  10. 什么是响应式web设计

    什么是响应式web设计 现在开发一个产品,基本上都会需要兼顾 PC端和 移动端. 一般有两种思路: 1.为每个终端做一个特定的版本,并给2级域名,根据终端环境调用不同的版本代码. 2.一个网站能够兼容 ...