CNN入门笔记

在之前的学习中，没有认真了解卷积神经网络，由于一些原因需要使用CNN来做图像分类，开始学习了卷积神经网络，参考了一些资料并做了这份记录

为什么要用卷积神经网络

在图像处理中，往往把图像表示为像素的向量，比如一个1000×1000的图像，可以表示为一个1000000的向量。如果使用全连接层来进行处理的话，假设隐含层于输入层数量一样，那么从输入层到隐含层的参数数量为1000000×1000000=10^12。这个数据是巨大的。
并且对于复杂的图像的处理，往往会使用深度学习模型，然而多隐含层神经网络难以直接用经典算法(如标准BP)进行训练，因为误差在多隐层内部逆传播时，往往会“发散”(diverge)而不能收敛到稳定状态。

卷积神经网络利用"权共享"的策略，并且采用对图片进行预训练、特征提取的办法来减小参数数量

卷积神经网络

局部感知

卷积神经网络有两种神器可以降低参数数目，第一种神器叫做局部感知野。一般认为人对外界的认知是从局部到全局的，而图像的空间联系也是局部的像素联系较为紧密，而距离较远的像素相关性则较弱。因而，每个神经元其实没有必要对全局图像进行感知，只需要对局部进行感知，然后在更高层将局部的信息综合起来就得到了全局的信息。网络部分连通的思想，也是受启发于生物学里面的视觉系统结构。视觉皮层的神经元就是局部接受信息的（即这些神经元只响应某些特定区域的刺激）。如下图所示：左图为全连接，右图为局部连接。

在上右图中，假如每个神经元只和10×10个像素值相连，那么权值数据为1000000×100个参数，减少为原来的万分之一。而那10×10个像素值对应的10×10个参数，其实就相当于卷积操作。

参数共享

但其实这样的话参数仍然过多，那么就启动第二级神器，即权值共享。在上面的局部连接中，每个神经元都对应100个参数，一共1000000个神经元，如果这1000000个神经元的100个参数都是相等的，那么参数数目就变为100了。
怎么理解权值共享呢？我们可以这100个参数（也就是卷积操作）看成是提取特征的方式，该方式与位置无关。这其中隐含的原理则是：图像的一部分的统计特性与其他部分是一样的。这也意味着我们在这一部分学习的特征也能用在另一部分上，所以对于这个图像上的所有位置，我们都能使用同样的学习特征。
更直观一些，当从一个大尺寸图像中随机选取一小块，比如说 8x8 作为样本，并且从这个小块样本中学习到了一些特征，这时我们可以把从这个 8x8 样本中学习到的特征作为探测器，应用到这个图像的任意地方中去。特别是，我们可以用从 8x8 样本中所学习到的特征跟原本的大尺寸图像作卷积，从而对这个大尺寸图像上的任一位置获得一个不同特征的激活值。
如下图所示，展示了一个3×3的卷积核在5×5的图像上做卷积的过程。每个卷积都是一种特征提取方式，就像一个筛子，将图像中符合条件（激活值越大越符合条件）的部分筛选出来。

上面所述只有100个参数时，表明只有1个10*10的卷积核，显然，特征提取是不充分的，我们可以添加多个卷积核，比如32个卷积核，可以学习32种特征。在有多个卷积核时，如下图所示：

上图右，不同颜色表明不同的卷积核。每个卷积核都会将图像生成为另一幅图像。比如两个卷积核就可以将生成两幅图像，这两幅图像可以看做是一张图像的不同的通道。这个通道的寓意可以类比成彩色图片中的sRGB或RGB通道，我们对彩色图片的处理也是把彩色图片的RGB通道看成是图片的不同 feature map 一起做卷积操作。
下图展示了在四个通道上的卷积操作，有两个卷积核，生成两个通道。其中需要注意的是，四个通道上每个通道对应一个卷积核，先将w2忽略，只看w1，那么在w1的某位置（i,j）处的值，是由四个通道上（i,j）处的卷积结果按权值相加然后再取激活函数值得到的。

下图是《西瓜书》中卷积神经网络的示意图

刚开始看的时候以为6@14*14的采样层，经过二次卷积后会变成 x*6@10*10(x为卷积核数)，但是，这个是错误的理解，通过上面对通道的解释，已经可以理解，每次进行卷积操作是使用全部通道进行的。而不是针对单一个平面进行。因此产生的卷积层数和卷积核数量仍然是相等的。

参考链接：
http://dataunion.org/11692.html