一、计算机视觉

如图示，之前课程中介绍的都是64* 64 3的图像，而一旦图像质量增加，例如变成1000 1000 * 3的时候那么此时的神经网络的计算量会巨大，显然这不现实。所以需要引入其他的方法来解决这个问题。

二、边缘检测示例

边缘检测可以是垂直边缘检测，也可以是水平边缘检测，如上图所示。

至于算法如何实现，下面举一个比较直观的例子：

可以很明显的看出原来6 * 6的矩阵有明显的垂直边缘，通过3 * 3的过滤器(也叫做 “核”)卷积之后，仍然保留了原来的垂直边缘特征，虽然这个边缘貌似有点大，这是因为数据不够大的原因，如果输入数据很大的话这个不是很明显了。

三、更多边缘检测内容

除了上面的垂直，水平边缘检测，其实也可以检测初颜色过度变化，例如是亮变暗，还是暗变亮？

下面是一些常见的过滤器，第二个是Sobel filter，具有较强的鲁棒性，第三个是Schoss filter。

其实过滤器的9个参数也可以通过学习的方式获得，虽然比较费劲，但是可能会学到很多其他除了垂直，水平的边缘特征，例如45°，70°等各种特征。

四、Padding

1.为什么要用padding

之所以运用Padding(填充)主要是为了解决如下两个缺点：

1.由前面的例子可以看到，每经过一次卷积计算，原数据都会减小，但有的时候我们并不希望这样。举个比较极端的例子：假设原数据是30 * 30的一只猫的图像，经过10次卷积(过滤器是3 * 3)后，最后图像只剩下了10 * 10了，此时不就剩下马赛克了吗23333

2.由卷积的计算方法可以知道，图像边缘特征计算次数显然少于图像中间位置的像素点，如下图示(绿色的位置明显是冷宫)

所以为了解决上=上面两个问题，引入了padding，一般是padding=1，填充的数据是0。效果如下：

原来的6 * 6填充后变成了8 * 8，此时在经过一次卷积得到的仍旧是6 * 6的矩阵。

下面总结一下卷积之后得到矩阵大小的计算方法，假设：

原数据是 n * n
过滤器是 f * f
padding p * p

得到的矩阵大小是 (n+2p-f+1)*(n+2p-f+1)

对于第二个缺点，虽然边缘像素点仍旧计算的比较少，但是这个缺点至少一定程度上被削弱了。

2.如何padding的大小

两种选择：Valid 卷积和Same 卷积

valid 卷积

即不添加padding。

Same 卷积

即保持原图像矩阵的大小。满足 (n+2p-f+1) = n ,即 $p=\frac{f-1}{2}$
为了满足上式，f一般奇数。

五、卷积步长

过滤器纵向，横向都需要按步长S来移动，如图示

结合之前的内容，输出矩阵大小计算公式方法为，假设：

原数据是 : n * n
过滤器是 : f * f
padding : p * p
步长Stride: s * s

得到的矩阵大小是 ⌊$\frac{n+2p-f}{s}$+1⌋*⌊$\frac{n+2p-f}{s}$+1⌋

⌊⌋: 向下取整符号 ⌊59/60⌋=0

⌈⌉：向上取整符号 ⌈59/60⌉=1

六、卷积中“卷”的体现之处

这一节用立体卷积来解释。

如图示，输入矩阵是 6 * 6 * 3(height * width * channels),过滤器是3 * 3 * 3，计算方法是一一对应相乘相加，最后得到4 * 4的二维矩阵。

有时可能需要检测横向边缘和纵向边缘，或者其他特征，所以我们可以使用多个过滤器。
上图则使用了两个过滤器，得到的特征矩阵大小为 4 * 4 * 2.

七、单层卷积网络

如图示得到4 * 4的矩阵后还需要加上一个变差$b_n$，之后还要进行非线性转换，即用ReLU函数。因此假如在某一卷积层中使用了10个3 * 3的过滤器，那么一共有$(3*3+1)*10=280$个参数。

下面总结了各项参数的大小和表示方法：

过滤器大小：$f^{[l]}$
填充 padding：$p^{[l]}$
步长 stride：$s^{l}$
激活函数: $a^{l}:n_H^{l} * n_W^{l} * n_c^{l}$
权重Weight: $f^{l}*f^{l}*n_c^{[l-1]}*n_c^{[l]}$
偏差bias：$1*1*1*n_c^{[l]}$
输入矩阵(height* width* channels)： $n_H^{l-1} * n_W^{l-1} * n_c^{l-1}$
- 每一卷积层的过滤器的通道的大小 = 输入层的通道大小
输出矩阵(height* width* channels)： $n_H^{l} * n_W^{l} * n_c^{l}$
- 输出层的通道的大小 = 过滤器的个数

输出层与输入层计算公式：

$n_{H/W}^{[l]}=[\frac{n_{H/W}^{[l-1]}+2p^{[l]}-f^{[l]}}{s^{[l]}}+1]$

八、简单卷积网络示例

上图简单介绍了卷积网络的计算过程，需要再介绍的一点是最后一层的全连接层，即将7 * 7 * 40的输出矩阵展开，得到1960个节点，然后再采用逻辑回归或Softmax来进行预测。

另外从上面的例子还可以看到，在一般的卷积神经网络中，每一层的矩阵的height和width是逐渐减小的，而channel则是增加的。

卷积神经网络中常见的三中类型的layer：

Convolution (Conv 卷积层)
Pooling (Pool 池化层)
Fully connected (FC 全连接层)

九、池化层

Pooling layer(池化层)的作用是压缩数据，加速运算，同时提高所提取特征的鲁棒性。

Max Pooling
即选取最大的

Average Pooling
即计算平均值，但是这个用的不多，因为这个会加入更多的计算量

注意：一般来说池化层是不需要Padding的，所以p都会置为0

十、卷积神经网络示例

注意：在吴大大的视频中将 Conv layer和 Pooling layer合并在一起视为一层，因为池化层没有参数(因为池化层的过滤器的无参数，而且其大小可以事先确定好)。但是在其他文献中可能会把池化层算成单独的层，所以具体视情况而定。

十一、为什么使用卷积？

卷积相比于全连接的好处最直观的就是使用的参数更少：

如图示，加入我们有一个32 * 32 * 3的图片，经过6个5 * 5的过滤器后可以得到28 * 28 * 6的矩阵，此时我们只需要 $5*5*6=150$个参数就可以了。而如果不用卷积呢？

首先32 * 32 3 = 3072，假如输出矩阵也要是28 28 * 6，即4704个节点，如果全连接的话那么就需要4704 * 3072个权
重参数，所以这个对比还是很明显的了。

至于为什么可以保证参数少的同时也保证了有效性，是因为如下两个原因

参数共享(Parameter sharing)
稀疏连接(Sparsity of connections)

参数共享：例如我们希望获取图像的竖向特征，那么我们只需加入一个可以检测竖向特征的过滤器就够了。
稀疏连接：如上图所示，输出矩阵左上角的0只与输入矩阵左上角的9个元素有关，其他的值不会干扰。输出矩阵其他位置也一样。所以这就是为什么卷积网络也可以捕捉到图像平移的特征，例如将图片中的猫向左平移几个像素点后，依然能够识别正确。

DeepLearning.ai学习笔记（四）卷积神经网络 -- week1 卷积神经网络基础知识介绍的更多相关文章

DeepLearning.ai学习笔记（二）改善深层神经网络：超参数调试、正则化以及优化--Week2优化算法
1. Mini-batch梯度下降法介绍假设我们的数据量非常多,达到了500万以上,那么此时如果按照传统的梯度下降算法,那么训练模型所花费的时间将非常巨大,所以我们对数据做如下处理: 如图所示,我 ...
DeepLearning.ai学习笔记汇总
第一章神经网络与深度学习(Neural Network & Deeplearning) DeepLearning.ai学习笔记(一)神经网络和深度学习--Week3浅层神经网络 DeepLe ...
DeepLearning.ai学习笔记（三）结构化机器学习项目--week2机器学习策略(2)
一.进行误差分析很多时候我们发现训练出来的模型有误差后,就会一股脑的想着法子去减少误差.想法固然好,但是有点headlong~ 这节视频中吴大大介绍了一个比较科学的方法,具体的看下面的例子还是以猫 ...
DeepLearning.ai学习笔记（四）卷积神经网络 -- week2深度卷积神经网络实例探究
一.为什么要进行实例探究? 通过他人的实例可以更好的理解如何构建卷积神经网络,本周课程主要会介绍如下网络 LeNet-5 AlexNet VGG ResNet (有152层) Inception 二. ...
Deep Learning.ai学习笔记_第一门课_神经网络和深度学习
目录前言第一周(深度学习引言) 第二周(神经网络的编程基础) 第三周(浅层神经网络) 第四周(深层神经网络) 前言目标: 掌握神经网络的基本概念, 学习如何建立神经网络(包含一个深度神经网络), ...
Java白皮书学习笔记+Head First Java--用于自我复习基础知识篇
本笔记是摘与Hava白皮书上面的内容,用来给自己做提醒的,因此大概并不适合Java的学习者作为笔记参考使用. 以我的水平现在还看不懂这个... 一.基础知识篇 1.常量 final关键字指示常量,只能 ...
DeepLearning.ai学习笔记（四）卷积神经网络 -- week4 特殊应用:人力脸识别和神经风格转换
一.什么是人脸识别老实说这一节中的人脸识别技术的演示的确很牛bi,但是演技好尴尬,233333 啥是人脸识别就不用介绍了,下面笔记会介绍如何实现人脸识别. 二.One-shot(一次)学习假设我们 ...
DeepLearning.ai学习笔记（四）卷积神经网络 -- week3 目标检测
一.目标定位这一小节视频主要介绍了我们在实现目标定位时标签该如何定义. 上图左下角给出了损失函数的计算公式(这里使用的是平方差) 如图示,加入我们需要定位出图像中是否有pedestrian,car, ...
DeepLearning.ai学习笔记（一）神经网络和深度学习--Week3浅层神经网络
介绍 DeepLearning课程总共五大章节,该系列笔记将按照课程安排进行记录. 另外第一章的前两周的课程在之前的Andrew Ng机器学习课程笔记(博客园)&Andrew Ng机器学习课程 ...

随机推荐

条件随机场 Conditional Random Fields
简介假设你有冠西哥一天生活中的照片(这些照片是按时间排好序的),然后你很无聊的想给每张照片打标签(Tag),比如这张是冠西哥在吃饭,那张是冠西哥在睡觉,那么你该怎么做呢? 一种方法是不管这些照片的序 ...
Java项目之员工收录系统
在Java SE中,对IO流与集合的操作在应用中比较重要.接下来,我以一个小型项目的形式,演示IO流.集合等知识点在实践中的运用. 该项目名称为"员工收录系统",在Eclipse的 ...
URL, URI, URN三者区别
URL和URN都是URI的子集 URL和URN都是URI,但是URI不一定是URL或者URN URI,URL,URN关系图关于URL: URL是URI的一种,不仅标识了Web 资源,还指定了操作或者 ...
【java系列】java开发环境搭建
描述本篇文章主要讲解基于windows 10系统搭建java开发环境,主要内容包括如下: (1)安装资料准备 (2)安装过程讲解 (3)测试是否安装成功 (4)Hello Word测试 1 安装 ...
php 可逆加密方法
可以逆转的加密类,没有密钥很难破解 [PHP]代码 <? class encryptCalss { var $key=12; function encode($txt){ for($i=0;$i ...
FastDFS教程Ⅲ-文件服务器扩容
1.简介 FastDFS文件服务器在设计时,为了支持大容量,存储节点(服务器)采用了分卷(或分组)的组织方式.存储系统由一个或多个卷组成,卷与卷之间的文件是相互独立的,所有卷的文件容量累加就是 ...
java变量和作用域以及成员变量的默认初始化
Java中的变量有成员变量和局部变量,定义在类中方法之外的变量成为成员变量或者成员字段(域),表示一个类所具有的属性,定义为类的成员变量的变量的作用于是整个类,该变量在定义的时候不需要初始化,在使用前 ...
Swagger服务API治理详解
swager2的简介在App后端开发中经常需要对移动客户端(Android.iOS)提供RESTful API接口,在后期版本快速迭代的过程中,修改接口实现的时候都必须同步修改接口文档,而文档与代码 ...
git上传本地文件到gitlab
The repository for this project is empty If you already have files you can push them using command l ...
HDoj-1042 大数阶乘
N! Time Limit: 10000/5000 MS (Java/Others) Memory Limit: 65536/32768 K (Java/Others) Total Submis ...

DeepLearning.ai学习笔记（四）卷积神经网络 -- week1 卷积神经网络基础知识介绍