Channel-wise卷积在channel维度上进行滑动，巧妙地解决卷积操作中输入输出的复杂全连接特性，但又不会像分组卷积那样死板，是个很不错的想法

来源：晓飞的算法工程笔记公众号

论文: ChannelNets: Compact and Efficient Convolutional Neural Networks via Channel-Wise Convolutions

论文地址：https://arxiv.org/abs/1809.01330
论文代码：https://github.com/HongyangGao/ChannelNets

Introduction

深度可分离卷积能够减少网络的计算量和参数量，其中point-wise卷积占据了大部分参数量，论文认为网络轻量化的下一个核心在于改变输入到输出的稠密连接方式。为此，论文提出channel-wise卷积的概念，将输入输出的维度连接进行稀疏化而非全连接，区别于分组卷积的严格分组，让卷积在channel维度上进行滑动，能够更好地保留channel间的信息交流。基于channel-wise卷积的思想，论文进一步提出了channel-wise深度可分离卷积，并基于该结构替换网络最后的全连接层+全局池化的操作，搭建了ChannelNets。

Channel-Wise Convolutions and ChannelNets

图a为深度可分离卷积结构，而图b为加入分组后的深度可分离卷积的结构，其中每个点代表一维特征。

Channel-Wise Convolutions

Channel-wise卷积的核心在于输入和输出连接的稀疏化，每个输出仅与部分输入相连，概念上区别于分组卷积，没有对输入进行严格的区分，而是以一定的stride去采样多个相关输入进行输出(在channel维度滑动)，能够降少参数量以及保证channel间一定程度的信息流。假设卷积核大小为$d_k$，输出大小维度为$n$，输入特征图大小为$d_f\times d_f$，普通卷积的参数量为$m\times d_k\times d_k\times n$，计算量为$m\times d_k\times d_k\times d_f\times d_f\times d_f\times n$，而channel-wise卷积的参数量为$d_c\times d_k\times d_k$，$d_c$一般为远小于$m$的数，代表一次采样的输入维度，计算量为$d_c\times d_k\times d_k\times d_f\times d_f\times n$，参数量和计算量都脱离于输入特征的维度$m$。

Group Channel-Wise Convolutions

分组卷积的分组思想会导致channel间的信息阻隔，为了增加分组间的channel信息交流，一般需要在后面添加一个融合层，继续保持分组的同时整合所有组的特征。论文使用分组channel-wise卷积层作为融合层，包含$g$个channel-wise卷积。定义输入特征维度$n$，分组数$g$，每个channel-wise卷积的stride为$g$(这里指channel上滑动的步幅)，输出$n/g$特征图(滑动$n/g$次)。为了保证每个分组的输出涵盖了所有的输入，需要满足$d_c \ge g$，最后将所有的输出concate起来，结构如图c所示。

Depth-Wise Separable Channel-Wise Convolutions

深度可分离channel-wise卷积在深度卷积后面接一个channel-wise卷积用以融合特征来降低参数量和计算量，结构如图d所示。图中的channel-wise卷积的stride为1，$d_c$为3，在进行特征融合的同时能够降低参数量。

Convolutional Classification Layer

一般网络最后都使用全局池化和全连接层进行最后的分类，但是这样的组合的参数量十分巨大。全局池化+全连接层的组合实际可以转换成深度可分离卷积，使用固定权重的深度卷积代替全局池化，pointwise卷积代替全连接层。因此，可以进一步使用上述的深度可分离channel-wise卷积来进行优化，而这里由于池化和全连接之间没有使用激活函数或BN等操作，采用常规的三维卷积进行实现更高效。

假设输入特征图为$m\times d_f\times d_f$，类别数为$n$，深度卷积或全局池化可以认为是卷积核大小为$d_f\times d_f\times 1$，权重固定为$1/d^2_f$的三维卷积，而channel-wise可认为是卷积核大小为$1\times 1\times d_c$的三维卷积，两者可以合并成一个卷积核大小为$d_f\times d_f\times d_c$的三维卷积。为了符合类别数量，$d_c=m-n+1$，即每个类别的预测仅需要使用$(m-n+1)$个输入特征图。

论文可视化了全连接分类层的权重，蓝色是代表为0或接近0的权重，可以看到全连接分类层的权重实际非常稀疏，即本身也只使用到部分输入，所以这里使用部分输入特征也是合理的。

ChannelNets

ChannelNet根据MobileNet的基础结构进行构建，设计了图3的分组模块(GM)和分组channel-wise模块(GCWM)。由于GM模块存在信息阻隔的问题，所以在GM模块前面使用GCWM来生成包含全局信息的分组特征。

ChannelNet包含3个版本：

ChannelNet-v1替换了部分深度可分离卷积为GM和GCWM，分组数为2，共包含约370万参数。
ChannelNet-v2替换最后的深度可分离卷积为深度可分离channel-wise卷积，大约节省100万参数，占ChannelNet-v1的25%参数。
ChannelNet-v3替换最后的池化层加全连接层为上述的Convolutional Classification Layer，大约节省了100万(1024x1000-7x7x25)参数。

Experimental Studies

在ILSVRC 2012进行网络性能对比。

对比更轻量的网络性能，这里采用MobileNet的width multiplier思想缩放每层的维度。

对比分组channel-wise卷积对ChannelNet的影响，替换GCWM为GM模块，考虑GCWM模块仅增加了32个参数，这样的性能提升是高效的。

Conclustion

Channel-wise卷积在channel维度上进行滑动，巧妙地解决卷积操作中输入输出的复杂全连接特性，但又不会像分组卷积那样死板，是个很不错的想法。但感觉论文本身的性能还不够最优，论文对比的也只是MobileNetV1，跟MobileNetV2比差了点。

如果本文对你有帮助，麻烦点个赞或在看呗～

更多内容请关注微信公众号【晓飞的算法工程笔记】

ChannelNets: 省力又讨好的channel-wise卷积，在channel维度进行卷积滑动 | NeurIPS 2018的更多相关文章

GSM Channel Mode Modify和Channel Mode Modify Acknowledge信令
最近研究了下如何通过GSM Channel Mode Modify和Channel Mode Modify Acknowledge信令,获知GSM终端支持的data Rate 思路与原理: • I ...
深度学习原理与框架-卷积神经网络基本原理 1.卷积层的前向传播 2.卷积参数共享 3. 卷积后的维度计算 4. max池化操作 5.卷积流程图 6.卷积层的反向传播 7.池化层的反向传播
卷积神经网络的应用:卷积神经网络使用卷积提取图像的特征来进行图像的分类和识别分类相似图像搜索 ...
Go语言中的有缓冲channel和无缓冲channel区别
Go语言中的有缓冲channel和无缓冲channel区别结论 ch1:=make(chan int)// 无缓冲 ch2:=make(chan int,1)// 有缓冲无缓冲: 当向ch1中存值 ...
RepLKNet：不是大卷积不好，而是卷积不够大，31x31卷积了解一下 | CVPR 2022
论文提出引入少数超大卷积核层来有效地扩大有效感受域,拉近了CNN网络与ViT网络之间的差距,特别是下游任务中的性能.整篇论文阐述十分详细,而且也优化了实际运行的表现,值得读一读.试一试来源:晓飞 ...
关于matlab矩阵卷积conv2和傅里叶变换求卷积ifft2的关系
先定义两个矩阵 a = [1 2 3 5 ; 4 7 9 5;1 4 6 7;5 4 3 7;8 7 5 1] %a矩阵取5*4 b = [1 5 4; 3 6 8; 1 5 7] %b矩阵如多数 ...
deeplearning.ai 卷积神经网络 Week 2 深度卷积网络：实例研究听课笔记
1. Case study:学习经典网络的原因是它们可以被迁移到其他任务中. 1.1)几种经典的网络: a)LeNet-5(LeCun et al., 1998. Gradient-based lea ...
【转】python中的一维卷积conv1d和二维卷积conv2d
转自:https://blog.csdn.net/qq_26552071/article/details/81178932 二维卷积conv2d 给定4维的输入张量和滤波器张量来进行2维的卷积计算.即 ...
golang的缓冲channel和无缓冲channel的区别
话说golang的channel同步的定义真是让人无力吐槽,码农的用户体验就这么难搞么,超耐磨阿,无缓冲和缓冲居然有这么大区别....靠转载一段网上的资料 --------------------- ...
卷积神经网络实战-----0001(移植卷积神经网络c++ to python or java)
1. https://github.com/174high/simple_cnn 自己fork的 2. https://github.com/can1357/simple_cnn 最初始的 3. ...

随机推荐

Java连接MySQL数据库——含详细步骤和代码
工具:eclipse.MySQL.MySQL连接驱动:mysql-connector-java-5.1.45.jar 首先要下载Connector/J地址:http://www.mysql.com/d ...
人脸识别--SeetaFace
检测:http://download.csdn.net/detail/qq_14845119/9639840 对齐:http://download.csdn.net/detail/qq_1484511 ...
java的注释方法
1.单行注释 //注释的内容 2.多行注释 /....../ 3./**......*/,这种方式和第二种方式相似.这种格式是为了便于javadoc程序自动生成文档.
Java学习日报7.21
package leap;import java.util.Scanner;public class Leap {public static void main(String args[]) { in ...
js实现页面消息滚动效果
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
宿主机网络中其它机器与Docker容器网络互通配置
前言目前项目采用微服务架构进行开发,Nacos和其它服务部署到Docker中,Docker中容器采用的网络默认是桥接模式(Bridge),默认的子网码是172.17.0.1/16:宿主机是192.1 ...
如何解决 ajax跨域被阻止 CORS 头缺少 'Access-Control-Allow-Origin'的问题？
已拦截跨源请求:同源策略禁止读取位于 http://192.168.1.72:8080/securityMonitor_TV/service/getTest 的远程资源. (原因:CORS 头缺少 ' ...
centos7搭建sonarqube环境+jenkins部署全流程
一.简介sonarqube是一个用于代码质量管理的开源平台,用于管理源代码的质量不遵循代码标准sonar可以通过PMD,CheckStyle,Findbugs等等代码规则检测工具规范代码编写.潜在的 ...
uber_go_guide解析(一)
前言实力有限,guide啃着好费劲原地址https://github.com/xxjwxc/uber_go_guide_cn 加我自己的体会和补充基于Golang 1.14 正文 Interfa ...
Java入门-jdk安装与环境搭建
计算机计算机的组成:硬件+软件 1.硬件 1.1CPU 好比人的大脑主要负责数据的运算以及控制 1.2内存存储数据(临时存储) 缺点: 如果断电,数据丢失如果程序关闭或退出,数据丢失 1.3硬 ...

ChannelNets: 省力又讨好的channel-wise卷积，在channel维度进行卷积滑动 | NeurIPS 2018