深度学习、图像识别入门，从VGG16卷积神经网络开始

刚开始接触深度学习、卷积神经网络的时候非常懵逼，不知道从何入手，我觉得应该有一个进阶的过程，也就是说，理应有一些基本概念作为奠基石，让你有底气去完全理解一个庞大的卷积神经网络：

本文思路：

一、我认为学习卷积神经网络必须知道的几个概念：

1、卷积过程：

我们经常说卷积神经网络卷积神经网络，到底什么才是卷积？网络层卷积过程到底怎么实现？我们在这里借鉴了另一位博客大牛的动态图来给大家演示一下，

图作者文章在此：

http://blog.csdn.net/silence1214/article/details/11809947

我们可以看到，卷积过程其实还是基于一个固定的矩阵，在另外一个矩阵不断一格一格扫过去的到的数值的和，（注意：这里的一格一格非常重要，因为涉及后面的概念：步长→我们不妨想一想当固定矩阵不是一格一格前进的时候，会发生什么呢？）产生的一个新的矩阵，我们以作为比较会发现：粉红色矩阵和绿色矩阵在根本上有很大不一样，

第一，卷积之后的维数降低了；第二，我们要想想为什么降维了？（思考：降低维度到底有没有规律？）

答案是有的：我们发现橙色的固定框为3*3，绿色是5*5，出来是三乘三；

所以规律可以得到：粉红色最后的卷积结果矩阵维度=绿色矩阵维数-橙色矩阵维数+1

（我们又应该思考：如果我不想最后减少维度，我只希望卷积，怎么办呢？）

2、两层之间的池化：

我们依然延用博客大牛的另一个动图（再次点赞做的精细准确！）

我们可以发现其实跟之前没什么不一样：还是以三个矩阵之间的运算，但是我们很容易发现，它并不是一行一行扫过去的，橙色矩阵维度是黄色矩阵的整数倍，所以池化的最终的结论是要把原来的维度减少到1/n.这是池化最根本的原理（当然也有特殊情况。）

（思考点：我们想象一下如果一个19*19的矩阵做池化，会是一种什么样的体验呢？我们不可以缩小整数倍！！答案会在后面的VGG16里面讲清楚）

3、第三个知识点是步长的概念：

卷积核（后面讲到VGG16会介绍）移动的步长（stride）小于卷积核的边长（一般为正方行）时，变会出现卷积核与原始输入矩阵作用范围在区域上的重叠（overlap），卷积核移动的步长（stride）与卷积核的边长相一致时，不会出现重叠现象。

通俗一点其实就是：刚刚说的那个粉红色矩阵，他每一次移动多少格，格子就是步长！！

4、卷积核：

一个听起来很高大上的词语，我们依然用之前的基础来解释：通俗易懂：就是粉红色矩阵的个数！！因为有时候我们要提取的特征非常多非常广泛，所以需要我们用更多的矩阵来扫（多扫几遍），那么粉红色矩阵的个数就是卷积核个数。

5、Padding:

这个应该是最抽象的概念了：但是也不会特别难呢，就是我们在之前讲到第一点：卷积的时候，我抛下了一个问题：

（我们又应该思考：如果我不想最后减少维度，我只希望卷积，怎么办呢？）（现在知道括号的重要性了吧哈哈？

现在我们来解决这个问题：比如：我们需要做一个300*300的原始矩阵，用一个3*3卷积核（粉红色矩阵）来扫，扫出来，按照之前公式，结果的矩阵应该是：298*298的矩阵，但是这样很难计算，减得也不多，反而增加我计算难度，还不如池化（pooling）来得干脆是吧！那我们就在300*300矩阵外面周围加一圈“0”，记住，是在外面外包一层“0”

重点是：这样的300*300就变成了302*302的矩阵，这样就可以完全避开卷积后那两层的抵消。

6、还有一个就是通道的概念：这个不算知识点，仅仅是一个常识词语，比如一张图片，有RGB三种颜色，对应三个灰度级别，也就是三个通道了：

更加抽象的图可以参照下面的结构：

二、等待已久的VGG16：

VGG16分为16层，我们主要讲前面的前几层（越详细越好吧，后面是一样的）

——首先教会大家一个看其他神经网络也是用的办法：官方数据表格：

看懂一些式子表达：

Conv3-512 → 第三层卷积后维度变成512；

Conv3_2 s=2 → 第三层卷积层里面的第二子层，滑动步长等于2（每次移动两个格子）

好了，我们有了以上的知识可以考试剖析VGG16卷积神经网络了

三、利用之前的基本概念来解释深层的VGG16卷及网络；

【1、从INPUT到Conv1：】

首先两个黄色的是卷积层，是VGG16网络结构十六层当中的第一层（Conv1_1）和第二层（Conv1_2），他们合称为Conv1。

我们主要讲述第一个，也就是第一层（Conv1_1），它怎么把一个300*300*3的矩阵变成一个300*300*64的矩阵？

我们假设蓝色框是一个RGB图像，橙色是一个3*3*3的卷积核，我们对一个三维的27个数求和，然后扫过去，按照第一部分算的得出来的是一维的298*298的矩阵（因为卷积核也是三维所以结果是一维）；

然后回想一下什么是Padding、前面也讲过它的概念了；所以不了一圈的圆，回到了300*300*1；

然后，VGG16这一层安置有64个卷积核，那么，原来的300*300*1变成300*300*64

于是我们的到了想要的东西；最后的绿色框；

【1、从Conv1到Conv2之间的过度：】

这一步用的Pooling是：2*2*64 s=2；

也就是说，步长是二，滑动的矩阵本身没有重叠；刚好减半，第三维度64不变；

【3、顺利来到Conv2并且结构完全一样进入Conv3：】

我们知道原来INPUT是300*300*3过了第一层出来时150*150*64

那么第二层仍然有池化有128个卷积核，联想推理：

出来的应该是75*75*128；这一步没有问题，我们继续往下分析：

【4、进入Conv3的推演：】

可以知道第三层有256个卷积核，包含三层小的卷基层：

【5、从Conv3到Conv4之间的过度：】

池化没有问题，但是这里75不是一个偶数怎么弄，还记得我们第一部分前面的括号吗？

就是这样，我们在75这里相加了一个一，使之成为76，变成一个偶数，还有一种方法是通过步长的设置这里先不展开来讲了；

【6、后续的步骤】

后面的方法很简单，根据我给的那个VGG16的表格查找每一层里面有什么卷积核？多少个？池化的大小？步长多少？是否需要Padding？解决这些问题，你的VGG16就已经完全可以从头到尾说清楚了！！！

【7、Faster Rcnn的例子】

http://blog.csdn.net/errors_in_life/article/details/70916583

深度学习、图像识别入门，从VGG16卷积神经网络开始的更多相关文章

神经网络与深度学习笔记 Chapter 6之卷积神经网络
深度学习 Introducing convolutional networks:卷积神经网络介绍卷积神经网络中有三个基本的概念:局部感受野(local receptive fields), 共享权重 ...
UFLDL深度学习笔记（六）卷积神经网络
UFLDL深度学习笔记 (六)卷积神经网络 1. 主要思路 "UFLDL 卷积神经网络"主要讲解了对大尺寸图像应用前面所讨论神经网络学习的方法,其中的变化有两条,第一,对大尺寸图像 ...
深度学习基础-基于Numpy的卷积神经网络（CNN）实现
本文是深度学习入门: 基于Python的实现.神经网络与深度学习(NNDL)以及动手学深度学习的读书笔记.本文将介绍基于Numpy的卷积神经网络(Convolutional Networks,CNN) ...
深度学习二、CNN（卷积神经网络）概念及理论
一.卷积神经网络(CNN) 1.常见的CNN结构有:LeNet-5.AlexNet.ZFNet.VGGNet.ResNet等.目前效率最高的是ResNet. 2.主要的层次: 数据输入层:Input ...
深度学习笔记之CNN（卷积神经网络）基础
不多说,直接上干货! 卷积神经网络(ConvolutionalNeural Networks,简称CNN)提出于20世纪60年代,由Hubel和Wiesel在研究猫脑皮层中用于局部敏感和方向选择的神经 ...
深度学习原理与框架-Tensorflow卷积神经网络-cifar10图片分类(代码) 1.tf.nn.lrn(局部响应归一化操作) 2.random.sample(在列表中随机选值) 3.tf.one_hot(对标签进行one_hot编码)
1.tf.nn.lrn(pool_h1, 4, bias=1.0, alpha=0.001/9.0, beta=0.75) # 局部响应归一化,使用相同位置的前后的filter进行响应归一化操作参数 ...
深度学习原理与框架-Tensorflow卷积神经网络-卷积神经网络mnist分类 1.tf.nn.conv2d(卷积操作) 2.tf.nn.max_pool(最大池化操作) 3.tf.nn.dropout(执行dropout操作) 4.tf.nn.softmax_cross_entropy_with_logits(交叉熵损失) 5.tf.truncated_normal(两个标准差内的正态分布)
1. tf.nn.conv2d(x, w, strides=[1, 1, 1, 1], padding='SAME') # 对数据进行卷积操作参数说明:x表示输入数据,w表示卷积核, stride ...
深度学习原理与框架-Tensorflow卷积神经网络-神经网络mnist分类
使用tensorflow构造神经网络用来进行mnist数据集的分类相比与上一节讲到的逻辑回归,神经网络比逻辑回归多了隐藏层,同时在每一个线性变化后添加了relu作为激活函数, 神经网络使用的损失值为 ...
MINIST深度学习识别：python全连接神经网络和pytorch LeNet CNN网络训练实现及比较（三）
版权声明:本文为博主原创文章,欢迎转载,并请注明出处.联系方式:460356155@qq.com 在前两篇文章MINIST深度学习识别:python全连接神经网络和pytorch LeNet CNN网 ...

随机推荐

升级 macOS Mojave 后部分软件 (如 VS Code) 字体变虚的解决方法
目前有些朋友的设备可能还是“非 Retina” 显示器,那这样如果升级到 Mojave 后你会发现文字不清晰了,这是因为 Mojave 默认关闭了文字次像素渲染字体,你需要在终端里执行: defaul ...
使用自己的域名解析cnblogs博客（CSDN也可以）
本文主要介绍怎样使用自己购买的域名指向cnblogs博客通常来说技术人员都会创建个自己的技术博客,总结下工作中的问题,经验等等,不过某些博客的访问链接的确是不太容易记忆或者输入,对我们分享造成一定的 ...
强化学习平台 openAI 的 gym 安装（Ubuntu环境下如何安装Python的gym模块）
openAI 公司给出了一个集成较多环境的强化学习平台 gym , 本篇博客主要是讲它怎么安装. openAI公司的主页: https://www.openai.com/systems/ 从主页上我 ...
c++ 　与　　java　　中的　继承
C++ 代码: #include <iostream> #include <string> using namespace std; class Parent { public ...
C高级第一次PTA作业（2）
6-1 在数组中查找指定元素本题要求实现一个在数组中查找指定元素的简单函数. 1.设计思路 (1)算法: 第一步:定义一个数组名为a的数组,循环变量i,需要查找的数x,和数组元素的个数n. 第二步: ...
第八章 Redis数据库结构与读写原理
注:本文主要参考自<Redis设计与实现> 1.数据库结构每一个redis服务器内部的数据结构都是一个redisDb[],该数组的大小可以在redis.conf中配置("dat ...
pymysql模块操作数据库
pymysql模块是python操作数据库的一个模块 connect()创建数据库链接,参数是连接数据库需要的连接参数使用方式: 模块名称.connect() 参数: host=数据库ip po ...
HDU 1814 模板题 2-sat
敲模板做的,不知道怎么就对了,注意一下建边即可··· 贴代码: #include<cstdio> #include<vector> using namespace std; # ...
CODEFORCES 340 XOR and Favorite Number 莫队模板题
原来我直接学的是假的莫队原题: Bob has a favorite number k and ai of length n. Now he asks you to answer m queries ...
day34 python学习守护进程，线程，互斥锁，信号量，生产者消费者模型，
六守护线程无论是进程还是线程,都遵循:守护xxx会等待主xxx运行完毕后被销毁需要强调的是:运行完毕并非终止运行 #1.对主进程来说,运行完毕指的是主进程代码运行完毕 #2.对主线程来说,运行完 ...

深度学习、图像识别入门，从VGG16卷积神经网络开始

深度学习、图像识别入门，从VGG16卷积神经网络开始的更多相关文章

随机推荐

热门专题