关于SE-Net有些很奇妙的点: 1.首先,所谓的SE module加在了BN层后面,这样的话,SE首先应该是对于BN层输出的feature map求取global average pooling,一个样本的一个channel做一次pooling,注意这个地方的pooling输出值不是bn_weight * 0 + bn_bias,因为对于BN层而言,是在整个Batch里面对应channel求取的 均值,而不是一个样本一个channel求取的均值,所以一个样本一个channel的均值未必为0.…