理论部分

方法介绍

本节将详细介绍AMC的算法流程。AMC旨在自动地找出每层的冗余参数。 AMC训练一个强化学习的策略，对每个卷积层会给出其action（即压缩率），然后根据压缩率进行裁枝。裁枝后，AMC算法直接对裁剪后的网络惊醒精度的测试，不经过fine-tune过程，这种精度测量结果是fine-tune后得到最优模型的精度的一中近似，而且可以加速整个训练过程。

问题定义

在深度神经网络中，通过建超每层的参数个数，达到模型压缩和加速的效果。通常有2中裁枝方法：细精度裁枝和结构化裁枝。细精度裁枝【19】直接将不重要的参数去除掉，不考虑结构信息，以单个参数（scale）为单位裁剪，这种裁枝可以做到很高的压缩率和很少的精度损失，但同时这种算法导致稀疏的不规则参数结构（无法用通常的张量或矩阵表示），需要使用特殊设计的硬件做加速（比如EIE【18】）。结构化裁枝则是粗精度的，直接去除掉一个张量中规则的区域（比如按channel裁剪，或者按整列，整行去裁剪）裁剪后的参数依然是规则的，依然可以使用张量或矩阵表示，不需要额外的硬件或软件支持。本文中将采用结构化的裁枝方案，对卷积层和全联接层的通道进行裁枝。

AMC的目标在于对每层都找出有效的稀疏度（即压缩率），在之前的工作【38，31，22】中，压缩率通常是人工决定的。以卷积层为例，原始的参数张量为 $n*c*k*k$ ，其中n，c分别表示输出通道数和输入通道数，k是卷积核大小。对于细精度裁枝方法，稀疏度表示为0元素个数除以所有元素的个数，而对于通道裁枝，我们直接将参数张量压缩为 $n*c'*k*k$ ，因此稀疏度就是 $c'/c$ .

使用强化学习自动压缩

AMC利用强化学习对action空间（在本文即压缩率）进行有效地搜索，下面将介绍本文使用的强化学习框架的细节设定。

状态空间（State Space）

对每层卷积，AMC使用11个参数来表示该层的状态 $s_t$ :

$(t,n,c,h,w,stride,k,FLOPs[t],reduced,rest,a_{(t-1)})$

其中t表示第t层，其参数张量为 $n*c*k*k$ ；输入特征的维度为 $c*h*w$ ；FLOPs[t]表示该层的FLOPs，即该卷积层的操作数；reduced表示在之前所有层经过压缩已经减少的FLOPs；rest表示在后面所有层中剩余的FLOPs。在传入强化学习的agent之前，这些值会被归一化至【0，1】。状态 $s_t$ 是agent区分不同卷积层的基本特征。

行为空间（Action Space）

当前大多工作中，强化学习的行为空间为离散的（比如以通道数个数为action，仅取64，128，256，512），这种粗精度的行为空间可能影像模型结构的精度，因为模型压缩后的精度，对压缩率很敏感。同时随着层数变深，离散的行为空间扩大，搜索空间变得越来越大，无法做到有效的搜索。因此，AMC提出使用连续的行为空间，以压缩率为action，则每个action： a∈[0,1]，这种搜索空间可以得到更准确的压缩率。

DDPG Agent

图1为AMC算法的整体流程。强化学习的agent接收 $L_t$ 层的状态 $s_t$ ，输出为该层可以达到的稀疏度 $a_t$ （action），根据稀疏度取压缩后的channel个数，使用通道裁枝方法对网络进行压缩。然后将下一层 $L_{(t+1)}$ 输入到agent中，对下一层可以达到的稀疏度进行估计。在完成最后一层的压缩后，直接用压缩后的模型在验证集上测试，将测试准确率作为反馈，传给agent。

AMC使用DDPG策略控制输出的连续的压缩率。DDPG在训练过程中，需要兼顾2个方面：exploration与exploitation。Exploration是将我们在确定性函数得到的行为加入噪声，以达到探索潜在更优的action，而AMC中噪声分布采用截断的正态分布（truncated normal distribution）

$\mu^{\prime}\left(s_{t}\right) \sim \operatorname{TN}\left(\mu\left(s_{t} | \theta_{t}^{\mu}\right), \sigma^{2}, 0,1\right)$

在exploitation阶段，噪声σ初始化为0.5，之后每个episode都以指数减少。

根据Block-QNN【54】的方法，每个episode都是从状态 $s_t$ ，得到行为 $a_t$ ，以R为反馈回传给agent，在将状态转到 $s_{(t+1)}$ ，其中R是网络压缩后的奖励。在更新阶段，为了减少梯度估计的方差，使用如下的损失函数：

$\begin{array}{c}{\text { Loss }=\frac{1}{N} \sum_{i}\left(y_{i}-Q\left(s_{i}, a_{i} | \theta^{Q}\right)\right)^{2}} \\ {y_{i}=r_{i}-b+\gamma Q\left(s_{i+1}, \mu\left(s_{i+1}\right) | \theta^{Q}\right)}\end{array}$

为防止短期奖励比重过大，折扣因子γ设定为1。

搜索策略

限制资源消耗的压缩策略

图2 对action的约束

通过限制action（即每层的稀疏度），我们可以准确得到目标压缩率，与工作【57，4，54】类似，AMC中强化学习中使用的奖励函数为：

$R_{err}=-Error$

然而这种奖励函数中缺少对模型大小的限制，因此AMC在计算目标压缩率时限制action的解空间（即行为空间）。例如，我们要以细精度裁枝压缩模型大小，在计算前几层卷积核稀疏度时，我们使用任意的行为解（action），之后当我们发现在对所有层以大压缩率裁枝，都无法满足资源限制时，我们开始对行为解（action）进行限制。图2为整个算法的流程，这个算法中并没有指定资源限制一定是模型大小，可以由其他限制代替：比如FLOPs，或者整个网络在移动设别上一次前传的时间。作者进行了一系列实验证明，尽管强化学习的agent没有关于资源限制的刺激（AMC是通过对action作限制，而在奖励函数中没有这种资源限制），它也可以准确地给出目标压缩率。

最优精度的压缩策略

通过改变奖励函数，我们可以找到没有精度损失条件是，对压缩率的限制。作者通过实验，观察到Error与log（FLOPs）或参数的个数成负相关，基于此，作者提出以下奖励函数：

$\begin{aligned} \mathrm{R}_{\mathrm{FLOPs}} &=-\text {Error } \cdot \log (\mathrm{FLOPs}) \\ \mathrm{R}_{\text { Param }} &=-\text {Error } \cdot \log (\# \text { Param }) \end{aligned}$

上述奖励函数不仅对Error很敏感，同时包含了操作数（FLOPs）或模型大小（#Param）的刺激。作者通过实验，证明这种奖励函数可以自动找到在保证精度的条件下，压缩率的范围。

实验部分

待完善

代码解析

tf: https://github.com/mit-han-lab/amc-models
pytorch: https://github.com/mit-han-lab/amc

参考资料

https://zhuanlan.zhihu.com/p/63299393

【论文笔记】AutoML for MCA on Mobile Devices——论文解读与代码解析的更多相关文章

【C语言学习笔记系列】C语言编程狼追兔子问题代码解析！
问题描述一只兔子躲进了10个环形分布的洞中的一个.狼在第一个洞中没有找到兔子,就隔一个洞,到第3个洞去找:也没有找到,就隔2个洞,到第6个洞去找:以后每次多一个洞去找兔子--这样下去,如果一直找不到 ...
《DSLR-Quality Photos on Mobile Devices with Deep Convolutional Networks》研读笔记
<DSLR-Quality Photos on Mobile Devices with Deep Convolutional Networks>研读笔记论文标题:DSLR-Quality ...
【论文笔记系列】AutoML：A Survey of State-of-the-art （下）
[论文笔记系列]AutoML:A Survey of State-of-the-art (上) 上一篇文章介绍了Data preparation,Feature Engineering,Model S ...
【论文阅读】ShuffleNet: An Extremely Efficient Convolutional Neural Network for Mobile Devices
ShuffleNet: An Extremely Efficient Convolutional Neural Network for MobileDevices
论文笔记系列-Neural Network Search ：A Survey
论文笔记系列-Neural Network Search :A Survey 论文笔记 NAS automl survey review reinforcement learning Bayesia ...
Deep Learning论文笔记之（四）CNN卷积神经网络推导和实现（转）
Deep Learning论文笔记之(四)CNN卷积神经网络推导和实现 zouxy09@qq.com http://blog.csdn.net/zouxy09 自己平时看了一些论文, ...
论文笔记之：Visual Tracking with Fully Convolutional Networks
论文笔记之:Visual Tracking with Fully Convolutional Networks ICCV 2015 CUHK 本文利用 FCN 来做跟踪问题,但开篇就提到并非将其看做 ...
How to Run Node.js with Express on Mobile Devices
We released a JXcore plugin for Apache Cordova recently and in this article I will show how to run a ...
Deep Learning论文笔记之（八）Deep Learning最新综述
Deep Learning论文笔记之(八)Deep Learning最新综述 zouxy09@qq.com http://blog.csdn.net/zouxy09 自己平时看了一些论文,但老感觉看完 ...

随机推荐

Core3.1 微信v3 JSAPI支付
1.前言 "小魏呀,这个微信支付还要多久?","快了快了老板,就等着最后一步了...","搞快点哈,就等着上线呢","...... ...
入门OJ:最短路径树入门
题目描述 n个城市用m条双向公路连接,使得任意两个城市都能直接或间接地连通.其中城市编号为1..n,公路编号为1..m.任意个两个城市间的货物运输会选择最短路径,把这n*(n-1)条最短路径的和记为S ...
Linq.Expressions扩展ExpressionExtension
手上有一个以前项目用到的.NET工具类封装的DLL. 正好又想试一下动态LAMBDA表达式,用.NET Reflector看一下源码. public static class ExpressionEx ...
ES入门及安装软件
es介绍 Elasticsearch,简称es,是一款高扩展的分布式全文检索引擎.它可以近乎实时的存储,检索数据.es是面向文档型的数据库,一条数据就是一个文档,用json做为文档序列化的格式.es是 ...
基于源码分析Vue的nextTick
摘要:本文通过结合官方文档.源码和其他文章整理后,对Vue的nextTick做深入解析.理解本文最好有浏览器事件循环的基础,建议先阅读上文<事件循环Event loop到底是什么>. 一. ...
JMeter联机负载及问题解决
主控制机:存放JMeter脚本的机器叫做主控制机负载机:被连接并用来运行脚本的机器叫做负载机操作步骤: 1.修改主控制机上,JMeter安装目录bin目录下的JMeter.properties文件 ...
Java SPI机制详解
Java SPI机制详解 1.什么是SPI? SPI 全称为 (Service Provider Interface) ,是JDK内置的一种服务提供发现机制.SPI是一种动态替换发现的机制, 比如有个 ...
CobalStrike 4.0 生成后门几种方式及主机上线后基础操作
出品|MS08067实验室(www.ms08067.com) 本文作者:BlackCat(Ms08067内网安全小组成员) CobalStrike 4.0 生成后门几种方式步骤:Attacks-〉P ...
内存空间有限情况下的词频统计 Trie树前缀树
数据结构与算法专题--第十二题 Trie树 https://mp.weixin.qq.com/s/nndr2AcECuUatXrxd3MgCg
3.kafka安装配置
kafka安装配置 ### 1.集群规划 hadoop102 hadoop103 hadoop104 zk zk zk kafka kafka kafka jar包下载 http://kafka.ap ...