凭什么相信你，我的CNN模型

背景

学术界一直困惑的点是"如何让看似黑盒的CNN模型说话"，即对它的分类结果给出解释。

这里的解释是指，让模型告诉我们它是通过图片的哪些像素做出判断的，并不是深度学习理论层面的解释。

反卷积和导向反向传播

CNN模型的可解释问题，很早就有人在研究了，严格来说只是“CNN可视化”。有两个经典的方法。

CNN中的卷积、反卷机和反池化

反卷机（Deconvolution）、上采样（Unsampling）、上池化（Unpooling）

UnPooling的过程，特点是在Maxpooling的时候保留最大值的位置信息，之后在unPooling阶段使用该信息扩充FeatureMap，除最大值位置以外，其余补0。

UnSampling阶段没有使用MaxPooling时的位置信息，而是直接将内容复制来扩充Feature Map。

反卷积是卷积的逆过程，又称作转置卷积。最大的区别在于反卷积过程是有参数要进行学习的（类似卷积过程），理论是反卷积可以实现UnPooling和unSampling，只要卷积核的参数设置的合理。

卷积层回顾

特征输入为i，卷积核尺寸为k，步长为s，padding为p。$i=6,k=3,p=1,s=2$的卷积过程如下：

输出特征层的尺寸为$o=(i+2p-k)/s+1$

反卷积层

考虑将$i=4,k=3,s=1$卷积得到$o=2$

可以将3x3的卷积核展开为4x16的矩阵C.

CX=Y便是上述卷积过程。可见，卷积层的计算实质可以转化为矩阵的乘法。

值得注意的是，在一些深度学习网络的开源框架中并不是通过这种这个转换方法来计算卷积的，因为这个转换会存在很多无用的0乘操作，Caffe中具体实现卷积计算的方法可参考：Implementing convolution as a matrix multiplication。这是一个toeplitz 托普利兹矩阵。

我们很容易理解卷积层的前向传播是和矩阵C线程，那么反向传播便是和它的转置相乘。

反卷积和卷积的关系：卷积层的前向传播过程就是反卷积层的反向传播过程，卷积层的反向传播过程就是反卷积层的前向传播过程。

反卷机的计算

在步长s=1的情况下，反卷积核卷积过程刚好相反。结果会忽略padding的边（p=2）。

反卷积有时候也被叫做Fractionally Strided Convolution(小数步长的卷积)。对于步长 s>1的卷积，我们可能会想到其对应的反卷积步长 s′<1。

我们可以理解为：在其输入特征单元之间插入 s−1 个0，插入0后把其看出是新的特征输入。

FCN中的使用

在FCN的原文中提到deconvolutional layer中的kernel是可以被训练的，也可以是固定的，即默认的二维bilinear kernel。

之所以说FCN中的反卷积操作不是原则意义上transposed convolution，是因为作者设置其中的学习率lr_mult为0，没有让该层学习。即卷积核是固定不变的。

layer {

  name: "upscore"

  type: "Deconvolution"

  bottom: "score_fr"

  top: "upscore"

  param {

    lr_mult: 0

  }

  convolution_param {

    num_output: 21

    bias_term: false

    kernel_size: 64

    stride: 32

  }

}

TF中的使用

上采样利用的是conv2d_transpose函数，将输入特征插值到一个更大的特征图然后进行卷积。

conv2d_transpose(value,filter,output_shape,strides,padding..)

Args:

value: A 4-D `Tensor` of type `float` and shape

`[batch, height, width, in_channels]` for `NHWC` data format or `[batch, in_channels, height, width]` for `NCHW` data format.

filter: A 4-D `Tensor` with the same type as `value` and shape `[height, width, output_channels, in_channels]`. `filter`'s `in_channels` dimension must match that of `value`.

output_shape: A 1-D `Tensor` representing the output shape of the deconvolution op.

strides: A list of ints. The stride of the sliding window for each dimension of the input tensor.

padding: A string, either `'VALID'` or `'SAME'`. The padding algorithm.

好了，回到我们要研究的问题

反向传播、反卷积、导向反向传播的区别在于反向传播过程中经过ReLU层时对梯度的不同处理策略。在论文中有详细描述。

虽然过程上的区别看起来没有非常微小，但是在最终的效果上却有很大差别。

使用普通的反向传播得到的图像噪声较多，基本看不出模型的学到了什么东西。使用反卷积可以大概看清楚猫和狗的轮廓，但是有大量噪声在物体以外的位置上。导向反向传播基本上没有噪声，特征很明显的集中猫和狗的身体部位上。

虽然借助反卷积和导向反向传播我们“看到”了CNN模型神秘的内部，但是却并不能拿来解释分类的结果，因为它们对类别并不敏感，直接把所有能提取的特征都展示出来了。在刚才的图片中，模型给出的分类结果是猫，但是通过反卷积和导向反向传播展示出来的结果却同时包括了狗的轮廓。换句话说，我们并不知道模型到底是通过哪块区域判断出当前图片是一只猫的。要解决这个问题，我们必须考虑其他办法。

CAM

大家在电视上应该都看过热成像仪生成的图像

图像中动物或人因为散发出热量，所以能够清楚的被看到。接下来要介绍的CAM(Class Activation Mapping)产生的CAM图与之类似，当我们需要模型解释其分类的原因时，它以热力图（Saliency Map，我不知道怎么翻译最适合，叫热力图比较直观一点）的形式展示它的决策依据，如同在黑夜中告诉我们哪有发热的物体。

对一个深层的卷积神经网络而言，通过多次卷积和池化以后，它的最后一层卷积层包含了最丰富的空间和语义信息，再往下就是全连接层和softmax层了，其中所包含的信息都是人类难以理解的，很难以可视化的方式展示出来。所以说，要让卷积神经网络的对其分类结果给出一个合理解释，必须要充分利用好最后一个卷积层。

CAM利用GAP(Global Average Pooling)替换掉了全连接层。可以把GAP视为一个特殊的average pool层，只不过其pool size和整个特征图一样大，其实说白了就是求每张特征图所有像素的均值.

GAP的优点在NIN的论文中说的很明确了：由于没有了全连接层，输入就不用固定大小了，因此可支持任意大小的输入；此外，引入GAP更充分的利用了空间信息，且没有了全连接层的各种参数，鲁棒性强，也不容易产生过拟合；

还有很重要的一点是，在最后的 mlpconv层(也就是最后一层卷积层)强制生成了和目标类别数量一致的特征图，经过GAP以后再通过softmax层得到结果，这样做就给每个特征图赋予了很明确的意义，也就是categories confidence maps。

如果你当时不理解这个categories confidence maps是个什么东西，结合CAM应该就能很快理解。

我们重点看下经过GAP之后与输出层的连接关系(暂不考虑softmax层)，实质上也是就是个全连接层，只不过没有了偏置项，如图所示：

对每一个类别C，每个特征图k的均值都有一个对应的w，记为$w^c_k$。

CAM的基本结构就是这样了，下面就是和普通的CNN模型一样训练就可以了。训练完成后才是重头戏：我们如何得到一个用于解释分类结果的热力图呢？其实非常简单，比如说我们要解释为什么分类的结果是羊驼，我们把羊驼这个类别对应的所有$w^c_k$取出来，求出它们与自己对应的特征图的加权和即可。由于这个结果的大小和特征图是一致的，我们需要对它进行上采样，叠加到原图上去，如下所示。

CAM以热力图的形式告诉了我们，模型是重点通过哪些像素确定这个图片是羊驼了。

Grad-CAM方法

前面看到CAM的解释效果已经很不错了，但是它有一个致使伤，就是它要求修改原模型的结构，导致需要重新训练该模型，这大大限制了它的使用场景。如果模型已经上线了，或着训练的成本非常高，我们几乎是不可能为了它重新训练的。于是乎，Grad-CAM横空出世，解决了这个问题。

Grad-CAM的基本思路和CAM是一致的，也是通过得到每对特征图对应的权重，最后求一个加权和。

但是它与CAM的主要区别在于求权重$w^c_k$的过程。CAM通过替换全连接层为GAP层，重新训练得到权重，而Grad-CAM另辟蹊径，用梯度的全局平均来计算权重。事实上，经过严格的数学推导，Grad-CAM与CAM计算出来的权重是等价的。为了和CAM的权重做区分，定义Grad-CAM中第k个特征图对类别c的权重为$α^c_k$，可通过下面的公式计算：

\[\alpha_k^c=\frac{1}{Z}\sum\limits_{i}\sum\limits_{j}\frac{\partial y^c}{\partial A_{ij}^k}
\]

其中，Z为特征图的像素个数，$y^c$是对应类别c的分数（在代码中一般用logits表示，是输入softmax层之前的值），$A^k_{ij}$表示第k个特征图中，(i,j)位置处的像素值。求得类别对所有特征图的权重后，求其加权和就可以得到热力图。

\[L_{Grad-CAM}^c=ReLU(\sum\limits_k\alpha_k^cA^k)
\]

整体结构如下图所示

注意这里和CAM的另一个区别是，Grad-CAM对最终的加权和加了一个ReLU，加这么一层ReLU的原因在于我们只关心对类别c有正影响的那些像素点，如果不加ReLU层，最终可能会带入一些属于其它类别的像素，从而影响解释的效果。使用Grad-CAM对分类结果进行解释的效果如下图所示：

除了直接生成热力图对分类结果进行解释，Grad-CAM还可以与其他经典的模型解释方法如导向反向传播相结合，得到更细致的解释。

这样就很好的解决了反卷积和导向反向传播对类别不敏感的问题。当然，Grad-CAM的神奇之处还不仅仅局限在对图片分类的解释上，任何与图像相关的深度学习任务，只要用到了CNN，就可以用Grad-CAM进行解释，如图像描述(Image Captioning)，视觉问答(Visual Question Answering)等，所需要做的只不过是把yc换为对应模型中的那个值即可。

限于篇幅，本文就不展开了，更多细节，强烈建议大家去读读论文，包括Grad-CAM与CAM权重等价的证明也在论文中。如果你只是想在自己的模型中使用Grad-CAM，可以参考这个链接，熟悉tensorflow的话实现起来真的非常简单，一看就明白。

LIME

前面共同的局限性：当模型对我们来说完全为一个黑盒时就无能为力了。针对这个问题，这里介绍另一套办法，即使我们对模型一无所知也能够对它的行为作出解释。

LIME是KDD 2016上一篇非常漂亮的论文，思路简洁明了，适用性广，理论上可以解释任何分类器给出的结果。其核心思想是：对一个复杂的分类模型(黑盒)，在局部拟合出一个简单的可解释模型，例如线性模型、决策树等等。这样说比较笼统，我们从论文中的一张示例图来解释：

如图所示，红色和蓝色区域表示一个复杂的分类模型（黑盒），图中加粗的红色十字表示需要解释的样本，显然，我们很难从全局用一个可解释的模型（例如线性模型）去逼近拟合它。

但是，当我们把关注点从全局放到局部时，可以看到在某些局部是可以用线性模型去拟合的。具体来说，我们从加粗的红色十字样本周围采样，所谓采样就是对原始样本的特征做一些扰动，将采样出的样本用分类模型分类并得到结果（红十字和蓝色点），同时根据采样样本与加粗红十字的距离赋予权重（权重以标志的大小表示）。虚线表示通过这些采样样本学到的局部可解释模型，在这个例子中就是一个简单的线性分类器。在此基础上，我们就可以依据这个局部的可解释模型对这个分类结果进行解释了。

一个看似复杂的模型通过我们巧妙的转换，就能够从局部上得到一个让人类理解的解释模型，光这样说还是显得有些空洞，具体来看看LIME在图像识别上的应用。我们希望LIME最好能生成和Grad-CAM一样的热力图解释。但是由于LIME不介入模型的内部，需要不断的扰动样本特征，这里所谓的样本特征就是指图片中一个一个的像素了。仔细一想就知道存在一个问题，LIME采样的特征空间太大的话，效率会非常低，而一张普通图片的像素少说也有上万个。若直接把每个像素视为一个特征，采样的空间过于庞大，严重影响效率；如果少采样一些，最终效果又会比较差。

所以针对图像任务使用LIME时还需要一些特别的技巧，也就是考虑图像的空间相关和连续的特性。不考虑一些极小特例的情况下，图片中的物体一般都是由一个或几个连续的像素块构成，所谓像素块是指具有相似纹理、颜色、亮度等特征的相邻像素构成的有一定视觉意义的不规则像素块，我们称之为超像素。相应的，将图片分割成一个个超像素的算法称为超像素分割算法，比较典型的有SLIC超像素分割算法还有quickshit等，这些算法在scikit-image库中都已经实现好了，quickshit分割后如图所示：

从特征的角度考虑，实际上就不再以单个像素为特征，而是以超像素为特征，整个图片的特征空间就小了很多，采样的过程也变的简单了许多。更具体的说，图像上的采样过程就是随机保留一部分超像素，隐藏另一部分超像素，如下所示：

从图中可以很直观的看出这么做的意义：找出对分类结果影响最大的几个超像素，也就是说模型仅通过这几个像素块就已经能够自信的做出预测。这里还涉及到一个特征选择的问题，毕竟我们不可能穷举特征空间所有可能的样本，所以需要在有限个样本中找出那些关键的超像素块。虽然这部分没有在论文中过多提及，但在LIME的代码实现中是一个重要部分，实现了前向搜索（forward selection）、Lasso和岭回归（ridge regression）等特征选择方式，默认当特征数小于等于6时采用前向搜索，其他情况采用岭回归。

整体流程如图:

和Grad-CAM一样，LIME同样可以对其他可能的分类结果进行解释。

LIME除了能够对图像的分类结果进行解释外，还可以应用到自然语言处理的相关任务中，如主题分类、词性标注等。因为LIME本身的出发点就是模型无关的，具有广泛的适用性。

虽然LIME方法虽然有着很强的通用性，效果也挺好，但是在速度上却远远不如Grad-CAM那些方法来的快。当然这也是可以理解的，毕竟LIME在采样完成后，每张采样出来的图片都要通过原模型预测一次结果。

说来也巧，在写这篇文章的时候，AAAI 2018的论文放出来了，其中有LIME作者的最新研究成果Anchors，顺道去了解了一下。Anchors指的是复杂模型在局部所呈现出来的很强的规则性的规律，注意和LIME的区别，LIME是在局部建立一个可理解的线性可分模型，而Anchors的目的是建立一套更精细的规则系统。不过看过论文以后感觉更多是在和文本相关的任务上有不错的表现，在图像相关的任务上并没有什么特别另人耳目一新的东西，只是说明了在Anchor（图像中指若干个超像素）固定的情况下，其他像素无论替换为什么，现有的模型都会罔顾人类常识，自信的做出错误判断。这部分内容由于前几年看多了Adversarial Samples，已经见怪不怪了。

小结

实际上在模型可解释性这块还有其他很多相关研究，包括最近的AAAI 2018上也有几篇这方面的文章，如Beyond Sparsity: Tree Regularization of Deep Models for Interpretability，这都在一定程度上说明，业内还是重视这个方向的。尤其在涉及到医疗、自动驾驶等人命关天的应用场合，可解释性显得尤为重要。