原文地址:https://blog.csdn.net/CVSvsvsvsvs/article/details/90477062

池化层作用机理
我们以最简单的最常用的max pooling最大池化层为例,对池化层作用机理进行探究。其他池化层的作用机理也大致适用这一机理,在这里就不加入讨论。
图片和以下部分内容来自 CS231n
从上面左图可以看到,使用了pool操作其实就是降低图片的空间尺寸。右图使用一个 2 × 2的 池化核(filter),以2为步长(stride),对图片进行max pooling,那么会图片就会尺寸就会减小一半。需要注意,这里是因为 stride = 2,所以图片尺寸才会减少一半的。
CS231n又对池化进行了量化的阐述:
上图表示的意思就是:
给定一个图片的三个维度的尺寸, 即【Channel, Height, Width】,以及给定两个超参数池化核尺寸 【F × F】,池化步长【S】,就可以计算池化后的图片尺寸,见上图公式。
池化核这个filter是不需要保留参数的,不同于conv filter, 每一个pooling filter就是一个固定的函数,比如max pooling,就是取这个filter覆盖区域像素的最大值而已。所以我们在计算卷积层数的时候,不计入池化层。
对于pooling 层,我们通常不需要使用 padding。这是由于采用pooling通常是为了减少一半的图片尺寸,我们使用 kernel size = 2 * 2,以及stride = 2的池化核。就可以在不padding 的情况下,将尺寸变为一半。
CS231n还介绍了另外一种常见的池化核, 其步长为 2,kernel size = 3 * 3,  叫做覆盖池化层,其含义也就是在前后两次的滤波窗口之间有一个像素的重叠。该池化核在AlexNet中得到了应用,见ImageNet Classification with Deep Convolutional
Neural Networks
It is worth noting that there are only two commonly seen variations of the max pooling layer found  in practice:A pooling layer with F=3,S=2 (also called overlapping pooling), and more commonly F=2,S=2.
Pooling sizes with larger receptive fields are too destructive.
CS231n 同时也告诫我们,使用大尺寸的池化核去增大感受野是destructive(破坏性的)。这很容易理解,增大池化核,将损失更多的图片像素信息。
看到这里,你可能会有两个疑问:
为什么可以降低图片空间尺寸呢?
为什么要降低图片的空间尺寸呢?
这两个问题,其实是触及了池化技术的本质:在尽可能保留图片空间信息的前提下,降低图片的尺寸,增大卷积核感受野,提取高层特征,同时减少网络参数量,预防过拟合。
先来探讨第一个问题。
为什么可以降低图片空间尺寸?
这个问题很简单,等比例缩小图片,图片的主体内容丢失不多,具有平移,旋转,尺度的不变性,简单来说就是图片的主体内容依旧保存着原来大部分的空间信息。
为什么要降低图片的尺寸?
我们知道在卷积神经网络中,如果特征抽取后最终输出特征图尺寸太大,将会导致输出结果的特征太多,计算量剧增的同时,将其输入到一个分类器(通常是全连接层Full Connected layer),很容易就会导致过拟合。就像机器学习一样,特征过多的话,我们可能会考虑降维(如PCA)来减少特征,增强拟合能力。
简单来说:降低尺寸,有助于减少计算量以及特征数量,保留主要特征,增大卷积核感受野,防止过拟合。
但我们在做卷积的时候,让conv 层的步长stride = 2同样也可以起到降低尺寸的目的啊,为什么需要pooling 层来降低尺寸,这就回到了上文的:池化层不需要保留参数。它采用一个固定的函数进行像素运算,如max pooling filter中采用了max函数,是不需要保留参数的,所以减少了网络的参数量。
增大感受野是怎么回事,我们知道在实际训练中,我们的卷积核一般就是比较小的,如3 * 3,这些卷积核本质就是在特征图上进行滤波窗口计算并滑动。如果要保持卷积核大小不变,同时增大卷积核覆盖区域(感受野增大,便于提取高层语义),那么就可以对图片尺寸进行下采样。
当然增大感受野也有其他方式,如膨胀卷积运算,在保证特征图尺寸不变的情况下,可以增大卷积核的感受野。
不过值得一提的是:在像素信息较为敏感的一些视觉任务中(如分割,检测),一般是较少使用pooling操作来下采样的,通常使用插值(如双线性插值等)或者stride=2的卷积层来进行下采样,尽可能的保留像素信息,这也是pooling操作的缺点,不过使用pooling也有其优点,就有无参数的好处。
如果你追求更加理论和硬核的pooling解释的话,我推荐你去看一下LeCun在10年ICML的论文:A Theoretical Analysis of Feature Pooling in Visual Recognition。
————————————————
版权声明:本文为CSDN博主「qyhyzard」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/CVSvsvsvsvs/article/details/90477062

深入解析CNN pooling 池化层原理及其作用的更多相关文章

  1. CNN之池化层tf.nn.max_pool | tf.nn.avg_pool | tf.reduce_mean | padding的规则解释

    摘要:池化层的主要目的是降维,通过滤波器映射区域内取最大值.平均值等操作. 均值池化:tf.nn.avg_pool(input,ksize,strides,padding) 最大池化:tf.nn.ma ...

  2. 【深度学习篇】--神经网络中的池化层和CNN架构模型

    一.前述 本文讲述池化层和经典神经网络中的架构模型. 二.池化Pooling 1.目标 降采样subsample,shrink(浓缩),减少计算负荷,减少内存使用,参数数量减少(也可防止过拟合)减少输 ...

  3. ubuntu之路——day17.3 简单的CNN和CNN的常用结构池化层

    来看上图的简单CNN: 从39x39x3的原始图像 不填充且步长为1的情况下经过3x3的10个filter卷积后 得到了 37x37x10的数据 不填充且步长为2的情况下经过5x5的20个filter ...

  4. 神经网络中的池化层(pooling)

    在卷积神经网络中,我们经常会碰到池化操作,而池化层往往在卷积层后面,通过池化来降低卷积层输出的特征向量,同时改善结果(不易出现过拟合).为什么可以通过降低维度呢? 因为图像具有一种“静态性”的属性,这 ...

  5. day-16 CNN卷积神经网络算法之Max pooling池化操作学习

    利用CNN卷积神经网络进行训练时,进行完卷积运算,还需要接着进行Max pooling池化操作,目的是在尽量不丢失图像特征前期下,对图像进行downsampling. 首先看下max pooling的 ...

  6. CNN学习笔记:池化层

    CNN学习笔记:池化层 池化 池化(Pooling)是卷积神经网络中另一个重要的概念,它实际上是一种形式的降采样.有多种不同形式的非线性池化函数,而其中“最大池化(Max pooling)”是最为常见 ...

  7. CNN中卷积层 池化层反向传播

    参考:https://blog.csdn.net/kyang624823/article/details/78633897 卷积层 池化层反向传播: 1,CNN的前向传播 a)对于卷积层,卷积核与输入 ...

  8. tensorflow 1.0 学习:池化层(pooling)和全连接层(dense)

    池化层定义在 tensorflow/python/layers/pooling.py. 有最大值池化和均值池化. 1.tf.layers.max_pooling2d max_pooling2d( in ...

  9. 图像处理池化层pooling和卷积核

    1.池化层的作用 在卷积神经网络中,卷积层之间往往会加上一个池化层.池化层可以非常有效地缩小参数矩阵的尺寸,从而减少最后全连层中的参数数量.使用池化层即可以加快计算速度也有防止过拟合的作用. 2.为什 ...

随机推荐

  1. 关于IDEA的application.properties读取乱码,以及显示乱码问题

    设置编码 如果设置之后还是不成功,就重启IDEA 再不行就删除application.properties重新编辑, 我采用的是注释掉要读取的中文部分,再下面再写一行

  2. Java并发(基础知识)—— Executor框架及线程池

    在Java并发(基础知识)—— 创建.运行以及停止一个线程中讲解了两种创建线程的方式:直接继承Thread类以及实现Runnable接口并赋给Thread,这两种创建线程的方式在线程比较少的时候是没有 ...

  3. python 教程之Django(二)

    官网: https://www.djangoproject.com/download/ 1.简单方法: A.pip 命令安装方法 pip install Django 打开dos命令窗口 输入命令回车 ...

  4. oracle 之创建视图异常

    最近在整理的oracle 的时候发现.创建视图 例如: CREATE OR REPLACE VIEW dept_sum_vw(name,minsal,maxsal,avgsal) AS SELECT ...

  5. 【转】Java的四种代码块

    原贴地址:http://www.cnblogs.com/end/archive/2012/12/21/2827554.html 一.普通代码块 直接在一个方法中出现的{}就称为普通代码块,例子程序如下 ...

  6. poj3522 苗条树(极差最小生成树)

    给你N个点和M条边 要求你求出一个生成树使得这个生成树里边权极差最小 做法① n*m做法 当最小的边已知的时候这个生成树就确定 所以最大的边也确定了 于是我们每次枚举最小的边 然后用kruskal做一 ...

  7. XP系统登录界面,需要手动点击用户帐户后才会出现输入密码的界面

    问题描述XP系统,用户帐户设置有密码.用户表示之前启动到系统登录界面,会直接出现输入密码的对话框(见图一):现在启动到登录界面只看到用户帐户信息,需手动点击用户名后才能出现输入密码的界面,用户感觉不方 ...

  8. C# out关键字

    在c#中"out"关键字可以通过参数一次返回多个值. using System; namespace ConsoleApplication1 { internal class Pr ...

  9. SQL Server里Grouping Sets的威力【转】

    在SQL Server里,你有没有想进行跨越多个列/纬度的聚集操作,不使用SSAS许可(SQL Server分析服务).我不是说在生产里使用开发版,也不是说安装盗版SQL Server. 不可能的任务 ...

  10. 数组 slice方法和splice方法的区别

    一.slice() 方法 slice()方法可以从已有的数组中返回选定的元素. 语法: arrayObject.slice(start,end) 参数: start:(截取开始位置的索引,包含开始索引 ...