I. 背景介绍 1. 学习曲线(Learning Curve) 我们都知道在手工调试模型的参数的时候,我们并不会每次都等到模型迭代完后再修改超参数,而是待模型训练了一定的epoch次数后,通过观察学习曲线(learning curve, lc) 来判断是否有必要继续训练下去.那什么是学习曲线呢?主要分为两类: 1.模型性能是训练时间或者迭代次数的函数:performance=f(time) 或 performance=f(epoch).这个也就是我们常用到的方法,即横轴记录训练时间(或迭代次数)…
Mastering the game of Go with deep neural networks and tree search Nature 2015  这是本人论文笔记系列第二篇 Nature 的文章了,第一篇是 DQN.好紧张!好兴奋! 本文可谓是在世界上赚够了吸引力! 围棋游戏被看做是 AI 领域最有挑战的经典游戏,由于其无穷的搜索空间 和 评价位置和移动的困难.本文提出了一种新的方法给计算机来玩围棋游戏,即:利用 "value network" 来评价广泛的位置 和 “p…
论文地址:https://arxiv.org/abs/1707.06342 主要思想 选择一个channel的子集,然后让通过样本以后得到的误差最小(最小二乘),将裁剪问题转换成了优化问题. 这篇论文题目说是对filter的裁剪,其实是对channel的裁剪,对channel裁剪以后,当然涉及filter的裁剪. 对channel裁剪以后当然可以实现压缩和加速. 实现细节 在i+1层中选择channel的子集,因为filter i+1层的个数没有变,所以layer i + 2层的尺寸大小也没有变…
1. 深层神经网络(Deep L-layer neural network ) 2. 前向传播和反向传播(Forward and backward propagation) 3. 总结 4. 深层网络中的前向传播(Forward propagation in a Deep Network) 向量化实现过程可以写成: 注:这里只能用一个显示for循环,l 从 1 到 L,然后一层接着一层去计算. 如何减少bug 4.1 核对矩阵的维数(Getting your matrix dimensions…
[论文笔记系列]AutoML:A Survey of State-of-the-art (上) 上一篇文章介绍了Data preparation,Feature Engineering,Model Selection,这篇文章会继续介绍后面的内容. 4. Model Generation 4.2 Hyperparameters optimization 4.2.1 Grid&Random Search 下图很直观地展示了网格搜索(grid search)和随机搜索(random search)的…
论文笔记系列-Neural Network Search :A Survey 论文 笔记 NAS automl survey review reinforcement learning Bayesian Optimization evolutionary algorithm  注:本文主要是结合自己理解对原文献的总结翻译,有的部分直接翻译成英文不太好理解,所以查阅原文会更直观更好理解. 本文主要就Search Space.Search Strategy.Performance Estimatio…
Lesson 2 Improving Deep Neural Networks:Hyperparameter tuning, Regularization and Optimization 这篇文章其实是 Coursera 上吴恩达老师的深度学习专业课程的第二门课程的课程笔记. 参考了其他人的笔记继续归纳的. 训练,验证,测试集 (Train / Dev / Test sets) 在机器学习发展的小数据量时代,常见做法是将所有数据三七分,就是人们常说的 70% 训练集,30% 测试集.如果明确设…
Pytorch实现代码:https://github.com/MenghaoGuo/AutoDeeplab 创新点 cell-level and network-level search 以往的NAS算法都侧重于搜索cell的结构,即当搜索得到一种cell结构后只是简单地将固定数量的cell按链式结构连接起来组成最终的网络模型.AutoDeeplab则将如何cell的连接方式也纳入了搜索空间中,进一步扩大了网络结构的范围. dense image prediction 之前的大多数NAS算法都是…
About this Course This course will teach you the "magic" of getting deep learning to work well. Rather than the deep learning process being a black box, you will understand what drives performance, and be able to more systematically get good res…
声明:所有内容来自coursera,作为个人学习笔记记录在这里. Initialization Welcome to the first assignment of "Improving Deep Neural Networks". Training your neural network requires specifying an initial value of the weights. A well chosen initialization method will help…
论文笔记-IGCV3:Interleaved Low-Rank Group Convolutions for Efficient Deep Neural Networks 2018年07月11日 14:05:46 Liven_Zhu 阅读数 846   介绍 在这篇论文中,作者同时使用低秩核和稀疏核(low-rank and sparse kernel)来组成一个密集kernel.基于ICGV2的基础上,作者提出了ICGV3. 近几年,卷积网络在计算机视觉上的有效性已经得到了验证.目前卷积网络的…
Tensorflow Welcome to the Tensorflow Tutorial! In this notebook you will learn all the basics of Tensorflow. You will implement useful functions and draw the parallel with what you did using Numpy. You will understand what Tensors and operations are,…
论文标题:MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications 论文作者:Andrew G. Howard, Menglong Zhu, Bo Chen, Dmitry Kalenichenko, Weijun Wang, Tobias Weyand, Marco Andreetto, Hartwig Adam 论文地址:https://arxiv.org/abs/1704.04861…
The Impact of Imbalanced Training Data for Convolutional Neural Networks Paulina Hensman and David Masko 摘要 本论文从实验的角度调研了训练数据的不均衡性对采用CNN解决图像分类问题的性能影响.CIFAR-10数据集包含10个不同类别的60000个图像,用来构建不同类间分布的数据集.例如,一些训练集中包含一个类别的图像数目与其他类别的图像数目比例失衡.用这些训练集分别来训练一个CNN,度量其得…
论文地址:https://asa.scitation.org/doi/abs/10.1121/1.5036725 深度神经网络在浅水环境中的源定位 摘要: 深度神经网络(DNNs)在表征复杂的非线性关系方面具有优势.本文将DNNs应用于浅水环境下的源定位.提出了两种方法,通过不同的神经网络结构来估计宽带源的范围和深度.第一阶段采用经典的两阶段方案,特征提取和DNN分析是两个独立的步骤;与模态信号空间相关联的特征向量被提取为输入特征.然后,利用时滞神经网络对长期特征表示进行建模,构建回归模型;第二…
论文: Multi-Fidelity Automatic Hyper-Parameter Tuning via Transfer Series Expansion 我们都知道实现AutoML的基本思路是不断选取不同的超参数组成一个网络结构,然后使用这个网络结构在整个数据集上进行评估 (假设评估值为\(f_H(X)=\mathcal{L}(δ,D^{train},D^{valid})\),X表示某一组超参数) ,最后选择出评估性能最好的网络参数. 但是基于full dataset进行评估cost太…
摘要 本文提出了一种新方法,可以基于简单的爬山过程自动搜索性能良好的CNN架构,该算法运算符应用网络态射,然后通过余弦退火进行短期优化运行. 令人惊讶的是,这种简单的方法产生了有竞争力的结果,尽管只需要与训练单个网络相同数量级的资源.例如使用该算法,在单个GPU上训练12个小时就可以将CIFAR-10数据集的错误率降低到6%一下,训练一整天后能够降低到5%左右. 1.介绍 背景不再详述,我们可以知道的是传统的优化算法并不能实现神经网络架构的自动搜索是因为其架构搜索空间是 离散的(例如层数.层类型…
摘要 神经网络在多个领域都取得了不错的成绩,但是神经网络的合理设计却是比较困难的.在本篇论文中,作者使用 递归网络去省城神经网络的模型描述,并且使用 增强学习训练RNN,以使得生成得到的模型在验证集上取得最大的准确率. 在 CIFAR-10数据集上,基于本文提出的方法生成的模型在测试集上得到结果优于目前人类设计的所有模型.测试集误差率为3.65%,比之前使用相似结构的最先进的模型结构还有低0.09%,速度快1.05倍. 在 Penn Treebank数据集上,根据本文算法得到的模型能够生成一个新…
之前已经发过一篇文章来介绍我写的AutoML综述,最近把文章内容做了更新,所以这篇稍微细致地介绍一下.由于篇幅有限,下面介绍的方法中涉及到的细节感兴趣的可以移步到论文中查看. 论文地址:https://arxiv.org/abs/1908.00709 1. Introduction 以往的模型都是靠大佬们不断试错和调参炼丹炼出来的,而且不同场景或者不同类型的数据集又得设计不同的网络模型,而我等穷&菜鸡在设计模型的天赋和计算资源上都比不过大佬们.幸运的是终于有体恤民意的大佬提出了Neural Ar…
声明:所有内容来自coursera,作为个人学习笔记记录在这里. 请不要ctrl+c/ctrl+v作业. Optimization Methods Until now, you've always used Gradient Descent to update the parameters and minimize the cost. In this notebook, you will learn more advanced optimization methods that can spee…
Optimization Welcome to the optimization's programming assignment of the hyper-parameters tuning specialization. There are many different optimization algorithms you could be using to get you to the minimal cost. Similarly, there are many different p…
声明:所有内容来自coursera,作为个人学习笔记记录在这里. Gradient Checking Welcome to the final assignment for this week! In this assignment you will learn to implement and use gradient checking. You are part of a team working to make mobile payments available globally, and…
论文信息 论文标题:Local Augmentation for Graph Neural Networks论文作者:Songtao Liu, Hanze Dong, Lanqing Li, Tingyang Xu, Yu Rong, Peilin Zhao, Junzhou Huang, Dinghao Wu论文来源:2021, arXiv论文地址:download 论文代码:download 1 Introduction 现有的方法侧重于从全局的角度来增强图形数据,主要分为两种类型: str…
论文信息 论文标题:Predict then Propagate: Graph Neural Networks meet Personalized PageRank论文作者:Johannes Gasteiger, Aleksandar Bojchevski, Stephan Günnemann论文来源:2019,ICLR论文地址:download论文代码:download 1-Abstract 本文主要将 PageRank 算法引入到 GNNs ,提出了  PPNP 模型 和APPNP 模型.…
原论文:Auto-FPN: Automatic Network Architecture Adaptation for Object Detection Beyond Classification 之前的AutoML都是应用在图像分类或者语言模型上,AutoFPN成功地将这技术应用到了目标检测任务上. 传统two-stage目标检测网络结构 在介绍AutoFPN之前,首先大致介绍一下two-stage目标检测网络的结构组成. backbone:即用来提取图像特征的网络结构,常用ResNet或VGG…
导言 传统的神经网络都是基于固定的数据集进行训练学习的,一旦有新的,不同分布的数据进来,一般而言需要重新训练整个网络,这样费时费力,而且在实际应用场景中也不适用,所以增量学习应运而生. 增量学习主要旨在解决灾难性遗忘(Catastrophic-forgetting) 问题,本文将要介绍的<iCaRL: Incremental Classifier and Representation Learning>一文中对增量学习算法提出了如下三个要求: a) 当新的类别在不同时间出现,它都是可训练的 b…
一. 引出主题¶ 深度学习领域一直存在一个比较严重的问题——“灾难性遗忘”,即一旦使用新的数据集去训练已有的模型,该模型将会失去对原数据集识别的能力.为解决这一问题,本文提出了树卷积神经网络,通过先将物体分为几个大类,然后再将各个大类依次进行划分.识别,就像树一样不断地开枝散叶,最终叶节点得到的类别就是我们所要识别的类. 二.网络结构及学习策略¶ 1. 网络结构 Tree-CNN模型借鉴了层分类器,树卷积神经网络由节点构成,和数据结构中的树一样,每个节点都有自己的ID.父亲(Parent)及孩子…
Summary 我的理解就是原本节点和节点之间操作是离散的,因为就是从若干个操作中选择某一个,而作者试图使用softmax和relaxation(松弛化)将操作连续化,所以模型结构搜索的任务就转变成了对连续变量\(α={α^{(i,j)}}\)以及\(w\)的学习.(这里\(α\)可以理解成the encoding of the architecture). 之后就是迭代计算\(w\)和\(α\),这是一个双优化问题,具体处理细节参见3.Approximation Research Object…
Summary 本文提出超越神经架构搜索(NAS)的高效神经架构搜索(ENAS),这是一种经济的自动化模型设计方法,通过强制所有子模型共享权重从而提升了NAS的效率,克服了NAS算力成本巨大且耗时的缺陷,GPU运算时间缩短了1000倍以上.在Penn Treebank数据集上,ENAS实现了55.8的测试困惑度:在CIFAR-10数据集上,其测试误差达到了2.89%,与NASNet不相上下(2.65%的测试误差) Research Objective 作者的研究目标 设计一种快速有效且耗费资源低…