论文基于层级表达提出高效的进化算法来进行神经网络结构搜索，通过层层堆叠来构建强大的卷积结构。论文的搜索方法简单，从实验结果看来，达到很不错的准确率，值得学习

来源：【晓飞的算法工程笔记】公众号

论文: Hierarchical Representations for Efficient Architecture Search

论文地址：https://arxiv.org/abs/1711.00436

Introduction

由于网络的验证需要耗费很长的时间，神经网络结构搜索计算量非常巨大，很多研究通过降低搜索空间的复杂度来提高搜索的效率。论文通过加入分层网络结构来约束搜索空间，在最初几层仅使用卷积和池化等简单操作，逐步到高层将底层的block进行组合搭建，最后将最高层的block堆叠成最终的网络。由于搜索空间设计够好，网络的搜索方法仅用进化算法或随机搜索足以。

论文总结如下：

提出对神经网络结构的层级表达
通过实验证明搜索空间的设计十分重要，可以降低搜索方法的投入，甚至随机搜索也可以
提出可扩展的进化搜索方法，对比其它进化搜索方法有更好的结果

Architecture Representations

Flat Architecture Representation

将神经网络结构定义为单输入、单输出的计算图，图中每个节点代表特征图，每条有向边为基本操作(卷积、池化等)，所以网络的表达$(G,o)$包含两部分:

一个有效的操作集合$o={o_1,o_2,...}$
一个邻接矩阵$G$，用以指定操作的神经网络图，$G_{ij}=k$为节点$i$和节点$j$间的操作为$o_k$

将操作集$o$和邻接矩阵$G$组合起来就得到网络的结构

每个节点$i$的特征图$x_i$由其前面的节点$j$通过公式2计算而得，$|G|$是图中节点数量，$merge$将多个特征图合并成一个的操作，这里直接使用depthwise concatentation，由于element-wise addition要求维度一致，比较不灵活，而且如果融合特征后接的是$1\times 1$卷积，这就其实类似于做concatienation

Hierarchical Architecture Representation

层级结构表达的关键是找到不同的层级的模版，在构建高层模版时使用低层的模版作为积木(operation)进行构建

对于$L$层的层级关系，$\ell$层包含$M_{\ell}$个模版，最高层$\ell=L$仅包含一个模版，对应完整的网络，最低层$\ell=1$是元操作集，定义$o_m^{{(\ell)}$为$\ell$层的第$m$个模版，为低层模版$o}{(\ell)}={o_1^{(\ell -1)},o_2^{(\ell -1)},...,o_1^{(\ell - 1)}}$根据公式3的组合。最终的层级结构表达为$({{G_m^{{(\ell)}}_{m=1}}M}_{\ell=2}^L,o{(1)})$，由每层的模版的网络结构关系和最底层操作定义，如图1

Primitive Operations

低层的原操作共六种($\ell=1$,$M_t=6$)：

1 × 1 convolution of C channels
3 × 3 depthwise convolution
3 × 3 separable convolution of C channels
3 × 3 max-pooling
3 × 3 average-pooling
identity

使用时，所有元操作为stride=1，以及进行padded来保留分辨率，卷积后都接BN+ReLU，维度固定为$C$。另外每层都有$none$操作，代表节点$i$和节点$j$之间没有连接

Evolutionary Architecture Search

Mutation

分层基因的变异包含以下步骤：

采样一个非原始层$\ell\ge2$作为目标层
在目标层采样一个模版$m$作为目标模版
在目标模版中采样一个后继节点$i$
在目标模版中采样一个前置节点$j$
随机替换当前操作$o_k^{(\ell -1)}$为其它操作$o_{k^{'}}{(\ell -1)}$

对于当前层级只有两层的，第一步直接将$\ell$设为2，变异可总结为公式4，$\ell$,$m$,$i$,$j$,$k^{'}$从各自区域的均匀分布中随机抽样得到，上面的突变足够对模版产生3种修改：

添加边：$o_k^{(\ell -1)}=none$，$o_{k^{'}}{(\ell -1)}\ne none$
修改存在的边：$o_k^{(\ell -1)}\ne none$，$o_{k^{'}}{(\ell -1)}\ne none$，$o_k^{(\ell -1)}\ne o_{k^{'}}{(\ell -1)}$
删除存在的边：$o_k^{(\ell -1)}\ne none$，$o_{k^{'}}{(\ell -1)}= none$

Initialization

基因指代完整的网络，基因的种群初始化包含两个步骤:

建立一个不重要的基因，每个模版都使用identity进行连接
对基因进行大批量的随机变异来多样化

对比以前的研究使用常见的网络进行基因初始化，这样的初始化不仅能很好地覆盖不常见的网络的搜索空间，还能去除人工初始化带来的传统偏向

Search Algorithms

论文的进化算法基于锦标赛选择(tournament selection)，首先对初始化的种群网络进行训练和测试得到分数，然后从种群中随机获取5%的基因，表现最好的基因进行突变得到新网络，在训练和测试后放入种群中，重复进行上述选取与放回，种群数量不断增大，最终取种群表现最好的基因

论文也使用随机搜索进行实验，基因种群随机生成，然后进行训练和验证，选取最好的模型，这种方法的主要好处在于能整个种群并行化计算，减少搜索时间

Implementation

论文使用异步分布式进行实现，包含一个controller和多个worker，分别负责基因的进化和测试，两者共享一个内存表格$\mathcal{M}$，记录基因及其准确率(fitness)，还有一个数据队列$\mathcal{Q}$，包含待测试的基因

当有worker空余时，controller使用锦标赛选择从$\mathcal{M}$中选择一个基因进行突变，然后放到队列$\mathcal{Q}$中等待测试

worker从$\mathcal{Q}$中拿到待测试的基因，测试后放到$\mathcal{M}$中，训练是从头开始训练的，没有使用权值共享加速

Experiments and Results

Experimental Setup

在实验中，没有对整体网络进行搜索，而是使用提出的方法进行卷积单元(cell)的搜索，这样能够在小网络上快速进行网络测试然后迁移到较大的网络。具体的各结构如图2，每个cell后面接$2c$维度和$stride=2$的$3\times 3$分离卷积，用于升维和降低分辨率，最后一个cell后面接$c$维度和$stride=1$的$3\times 3$分离卷积

Architecture Search on CIFAR-10

200卡，初始种群为200，层级$L=3$，每层模版的操作分别为$M_1=6$，$M_2=6$和$M_3=1$，每层($\ell \ge2$)的节点图分别为$|G^{{(2)}|=4$和$|G}{(3)}|=5$，层2的模版跟一个跟模版输入维度一样$1\times 1$的卷积来降维。对于用于对比的不分层的搜索方法，则使用11个节点的计算图。从图3来看，论文提出的方法在收敛速度、准确率和参数量上都不错

为了进一步展示论文方法的效果，对图3中间的结果的每轮增量进行了可视化。在P100 GPU上，每个网络的测试需要花费1小时，进化共7000轮，200张卡共需要1.5天

Architecture Evaluation on CIFAR-10 and ImageNet

CONCLUSION

论文基于层级表达提出高效的进化算法来进行神经网络结构搜索，通过层层堆叠来构建强大的卷积结构。论文的搜索方法简单，从实验结果看来，200张卡共需要1.5天，达到很不错的准确率，值得学习

APPENDIX A

如果本文对你有帮助，麻烦点个赞或在看呗～

更多内容请关注微信公众号【晓飞的算法工程笔记】

基于层级表达的高效网络搜索方法 | ICLR 2018的更多相关文章

NASH：基于丰富网络态射和爬山算法的神经网络架构搜索 | ICLR 2018
论文提出NASH方法来进行神经网络结构搜索,核心思想与之前的EAS方法类似,使用网络态射来生成一系列效果一致且继承权重的复杂子网,本文的网络态射更丰富,而且仅需要简单的爬山算法辅助就可以完成搜索,耗时 ...
自动网络搜索（NAS）在语义分割上的应用（二）
前言: 本文将介绍如何基于ProxylessNAS搜索semantic segmentation模型,最终搜索得到的模型结构可在CPU上达到36 fps的测试结果,展示自动网络搜索(NAS)在语义分割 ...
2013 ACM网络搜索与数据挖掘国际会议
ACM网络搜索与数据挖掘国际会议" title="2013 ACM网络搜索与数据挖掘国际会议"> 编者按:ACM网络搜索与数据挖掘国际会议(6th ACM Conf ...
自动网络搜索（NAS）在语义分割上的应用（一）
[摘要]本文简单介绍了NAS的发展现况和在语义分割中的应用,并且详细解读了两篇流行的work:DARTS和Auto-DeepLab. 自动网络搜索多数神经网络结构都是基于一些成熟的backbone, ...
基于Delphi的三层数据库系统的实现方法
基于Delphi的三层数据库系统的实现方法 1 引言当前的数据库应用系统中,按其结构划分为两类,一类是两层结构的数据库应系统,另一类是多层结构的数据库应用系统. 两层结构的数据库应用系统包括客 ...
公布一个基于 Reactor 模式的 C++ 网络库
公布一个基于 Reactor 模式的 C++ 网络库陈硕 (giantchen_AT_gmail) Blog.csdn.net/Solstice 2010 Aug 30 本文主要介绍 muduo 网 ...
基于CNN的人群密度图估计方法简述
人群计数的方法分为传统的视频和图像人群计数算法以及基于深度学习的人群计数算法,深度学习方法由于能够方便高效地提取高层特征而获得优越的性能是传统方法无法比拟的.本文简单了秒速了近几年,基于单张图像利用C ...
基于Solr和Zookeeper的分布式搜索方案的配置
1.1 什么是SolrCloud SolrCloud(solr 云)是Solr提供的分布式搜索方案,当你需要大规模,容错,分布式索引和检索能力时使用 SolrCloud.当一个系统的索引数据量少的时候 ...
R-FCN：基于区域的全卷积网络来检测物体
http://blog.csdn.net/shadow_guo/article/details/51767036 原文标题为“R-FCN: Object Detection via Region-ba ...

随机推荐

Java找零钱算法
买东西过程中,卖家经常需要找零钱.现用代码实现找零钱的方法,要求优先使用面额大的纸币,假设卖家有足够数量的各种面额的纸币. 下面给出的算法比较简单,也符合人的直觉:把找零不断地减掉小于它的最大面额的纸 ...
07 . Python3函数
Python3函数函数是组织好的,可重复使用的,用来实现单一,或相关联功能的代码段. 函数能提高应用的模块性,和代码的重复利用率.Python提供了许多内建函数,比如print().我们可以直接调用 ...
小谢第6问：js中，filter函数是怎么使用的
数组的常用方法filter,今天在做数组筛选的时候用到需要将有重复的数组去除,因此用到这个函数,主要用到-- 选择需要的属性,最终留下想要的数组,如果刚开始的话可以看下下面代码 let nums = ...
JavaSE (四）程序流程控制 -- if 、switch、for、while
个人博客网:https://wushaopei.github.io/ (你想要这里多有) 目录前置: * . 从键盘读取数据: 1.分支结构 1.1 if-else结构 1.2 switch- ...
Java实现 LeetCode 767 重构字符串（ASCII的转换）
767. 重构字符串给定一个字符串S,检查是否能重新排布其中的字母,使得两相邻的字符不同. 若可行,输出任意可行的结果.若不可行,返回空字符串. 示例 1: 输入: S = "aab&qu ...
Java实现 LeetCode 740 删除与获得点数（递推 || 动态规划？打家劫舍Ⅳ）
740. 删除与获得点数给定一个整数数组 nums ,你可以对它进行一些操作. 每次操作中,选择任意一个 nums[i] ,删除它并获得 nums[i] 的点数.之后,你必须删除每个等于 nums[ ...
Java实现 LeetCode 710 黑名单中的随机数（黑白名单）
710. 黑名单中的随机数给定一个包含 [0,n ) 中独特的整数的黑名单 B,写一个函数从 [ 0,n ) 中返回一个不在 B 中的随机整数. 对它进行优化使其尽量少调用系统方法 Math.ran ...
(Java实现) 过河卒
过河卒题目描述棋盘上AA点有一个过河卒,需要走到目标BB点.卒行走的规则:可以向下.或者向右.同时在棋盘上CC点有一个对方的马,该马所在的点和所有跳跃一步可达的点称为对方马的控制点.因此称之为&q ...
SQL Server实现 LeetCode 178 分数排名
178. 分数排名 SQL架构编写一个 SQL 查询来实现分数排名.如果两个分数相同,则两个分数排名(Rank)相同.请注意,平分后的下一个名次应该是下一个连续的整数值.换句话说,名次之间不应该有& ...
Java实现第九届蓝桥杯阶乘位数
阶乘位数题目描述小明维护着一个程序员论坛.现在他收集了一份"点赞"日志,日志共有N行.其中每一行的格式是: ts id 表示在ts时刻编号id的帖子收到一个"赞&qu ...

基于层级表达的高效网络搜索方法 | ICLR 2018