斯坦福CS231n—深度学习与计算机视觉----学习笔记 课时12&&13
课时12 神经网络训练细节part2(上)
训练神经网络是由四步过程组成,你有一个完整的数据集图像和标签,从数据集中取出一小批样本,我们通过网络做前向传播得到损失,告诉我们目前分类效果怎么样。然后我们反向传播来得到每一个权重的梯度,这个梯度告诉我们如何去调整每一个权重,最终我们能够更好的分类图片。
为什么要使用激活函数?
如果在整个的神经网络中不使用激活函数,你的网络的分类能力基本等同于一个线性分类器,所以激活函数是相当关键的。他提供了所有的方法,你可以他用来存储数据
BN使得网络的训练更加健壮。
参数更新
补救SGD垂直进展快的方法,使用动量更新,他可以理解为一个球滚动着接近中间,在这个情况下的梯度可以视作一种动力,物理学中的这种力量,就相当于加速度,而mu倍的v相当于摩擦力。
v初始化为0,其实没什么影响

学习速率是应用到所有方向上的
Nesterov动量更新

我们直接达到这个目的,然后计算梯度。

我们进行了重新整理

虽然有很多局部最小值,但是他们的损失其实是差不多的。当你扩大神经网络的规模时候,你的最坏和最好局部最小值之间的差别随着时间的推移会越来越小。有研究表明,基本上也就不存在坏的局部最小值了,当然这也只在很小的网络中出现。事实上,你用不同的值初始化,你会得到相同的结果和损失,所以,基本上不存在不好的局部最小值。
AdaGrad更新

由凸优化理论发展而来的,然后被移植到了神经网络中,他的实现和一些基本的随机梯度下降的形式是一样的,我们用附加变量来放缩梯度,我们在不停地增加这一附加变量。这里的cache在这里由梯度的平方和构成,他一定是正数。变量cache是一个联合矢量,他和你的主向量是一样大的,因此cache在每一个维度计算其相应的梯度的平方和,我们有时称他为第二moment,我们将这些cache构造起来,然后逐项用这一函数除以cache的平方,这就是人们称他为每个参数自适应学习速率的方法的原因。因为参数空间的每一维,都有自己的学习速率,他会根据梯度的规模大小而动态的变化。le-7是一个平滑因子,一个超参数,防止除数变为0
问题:我们长时间训练,不断有正数加到分母的cache变量中,更新步长就会逐渐衰减到0,最后完全停止学习

改进:其主要思想是不再是在每一维度计算平方和而是变成一个泄漏的变量,最后我们利用衰减率这个超参数
Adam更新

一个动量m表示的是梯度的一阶矩,把他用指数和展开的形式表示。adagrad记录的是梯度的二阶矩,并按指数和形式表示,然后就得到Adam的更新了。可以从另一个角度来理解他,通过小批量抽样处理,在前向传播中你会得到很多随机值,你会得到这些带有噪声的梯度。所以相比于在每一步都用各自梯度值运算,我们实际上是利用前面几个梯度的衰减和,这样能稳定梯度方向,这就是动量的作用。放缩的作用是确保梯度大和梯度小的方向步长相关。
课时13 神经网络训练细节part2(下)
集成模型
小技巧:例如,当你在训练神经网络时设置一些检查点,通常是每个时期建立一个,对每个检查点都去验证这在验证集中的表现。这说明了你可以在模型中设置不同的检查点,然后在处理集合中使用他们,这被证明能够使得结果有所改善。
随机失活
在你进行神经网络前向传播的时候,你要随机的把一些神经元置零。计算每个隐藏层的激活函数,然后随机挑选出一半神经元失活。在反向传播中也要进行随机失活
意义:可以防止过拟合,因为如果我们只用网络的一半的话,他的表达能力就小了很多,我们每次只用一半网络的话,我们就能相对减少在训练中涉及到的变量数(从而减少过拟合的概率)
另一种解释是随机失活可以被视为训练一个由很多小模型集成而成的大模型。每一个子网络都是原来大网络的一个子网络,但是原网络和子网络之间并不能很好的分享参数。我们在前向传播的时候,随机失活一些,在反向传播过程中,我们也要经过这些掩模。在这时,只有那些在前向传播过程中,我们用到的没有失活的神经元的参数或者说经过这些神经元的梯度才会被更新。所以,在随机失活这个过程中,其实只是训练了一个在某一次取样中,选择的原网络的一部分。换句话说,每一个二进制掩模(随机失活后的网络)都是一个新模型,他只会被一个数据训练一次。
当你失活一个神经元的时候,他的权值也就不更新了,如果我们取样了网络的一部分,我们只会用一个数据点来训练这个子网络(因为每次循环中都有新的子网络)。每次我们都会用网络不同的部分来训练,但是他们之间都会有相同的参数(两次取样没有失活的部分),也就是说在多次循环中我们会用相同的数据点来训练不同的有共同参数的模型,这就是随机失活大概的意思。
如果想要更强的正则化,则可以失活更多的神经元。
斯坦福CS231n—深度学习与计算机视觉----学习笔记 课时12&&13的更多相关文章
- 斯坦福CS231n—深度学习与计算机视觉----学习笔记 课时3
课时3 计算机视觉历史回顾与介绍下 ImageNet有5000万张图片,全部都是人工清洗过得,标注了超过2万个分类. CS231n将聚焦于视觉识别问题,图像分类关注的是大图整体:物体检测告诉你东西具体 ...
- 斯坦福CS231n—深度学习与计算机视觉----学习笔记 课时1
课时1 计算机视觉历史回顾与介绍上 CS231n:这一一门关于计算机视觉的课程,基于一种专用的模型架构,叫做神经网络(更细一点说,是卷积神经网络CNN).计算机视觉是人工智能领域中发展最为迅猛的一个分 ...
- 斯坦福CS231n—深度学习与计算机视觉----学习笔记 课时26&&27
课时26 图像分割与注意力模型(上) 语义分割:我们有输入图像和固定的几个图像分类,任务是我们想要输入一个图像,然后我们要标记每个像素所属的标签为固定数据类中的一个 使用卷积神经,网络为每个小区块进行 ...
- 斯坦福CS231n—深度学习与计算机视觉----学习笔记 课时24&&25
课时24 深度学习开源库使用介绍(上) Caffe 被用于重新实现AlexNet,然后用AlexNet的特征来解决其他事情 用C++书写的,可以去GitHub上面读取源代码 主要四个类: Blob可以 ...
- 斯坦福CS231n—深度学习与计算机视觉----学习笔记 课时8&&9
课时8 反向传播与神经网络初步(上) 反向传播在运算连路中,这是一种通过链式法则来进行递推的计算过程,这个链路中的每一个中间变量都会对最终的损失函数产生影响. 链式法则通常包含两部分,局部梯度和后一层 ...
- 斯坦福CS231n—深度学习与计算机视觉----学习笔记 课时11
课时11 神经网络训练细节part1(下) 2010年,Glorot等人写的论文,我们称之为Xavier初始化,他们关注了神经元的方差表达式.他们推荐一种初始化方式,那就是对每个神经元的输入进行开根号 ...
- 斯坦福CS231n—深度学习与计算机视觉----学习笔记 课时10
课时10 神经网络训练细节part1(上) 没有大量的数据也不会有太多影响,只需要找一个经过预训练的卷积神经网络然后进行调整 从数据集中抽样一小批数据, 将数据运入卷积神经网络中来计算损失值 通过反向 ...
- 斯坦福CS231n—深度学习与计算机视觉----学习笔记 课时7
课时7 线性分类器损失函数与最优化(下) 我们为什么要最大化对数概率而非直接最大化概率? 你在做逻辑斯蒂回归时,如果你只是想要最大化概率,那你使用log是无意义的.因为log函数是单调函数,最大化概率 ...
- 斯坦福CS231n—深度学习与计算机视觉----学习笔记 课时14&&15
课时14 卷积神经网络详解(上) CNN处理的是一些数据块,在这之间有很多层,一系列的层将输入数据变换为输出数据,所以完成操作的中间量不仅是NN时候讲的那些向量,而是立体结构,有宽,高和深度,在整个计 ...
随机推荐
- 梯度下降和EM算法,kmeans的em推导
I. 牛顿迭代法给定一个复杂的非线性函数f(x),希望求它的最小值,我们一般可以这样做,假定它足够光滑,那么它的最小值也就是它的极小值点,满足f′(x0)=0,然后可以转化为求方程f′(x)=0的根了 ...
- 向C#的选项卡中添加自定义窗体
一.自定义窗体的搭建 这个比较简单,添加一个WinForm窗体就行了,设置一个名字EditPanel,然后在窗体上画需要的控件. 二.将自定义窗体添加到选项卡 // 新建窗体加入到选项卡中 EditP ...
- Monkey源代码分析之事件注入
本系列的上一篇文章<Monkey源代码分析之事件源>中我们描写叙述了monkey是怎么从事件源取得命令.然后将命令转换成事件放到事件队列里面的.可是到如今位置我们还没有了解monkey里面 ...
- java栈、堆
一.栈.堆 几个小概念 1.寄存器:最快的存储区, 由编译器根据需求进行分配,我们在程序中无法控制. 2. 栈:存放基本类型的变量数据和对象的引用,但对象本身不存放在栈中,而是存放在堆(new 出来的 ...
- C#语言 循环语句
//Console.Write("请输入关卡数:"); //int a = int.Parse(Console.ReadLine()); //int s = 0; //if (a ...
- 【转载】WebService相关概念
一.序言 大家或多或少都听过 WebService(Web服务),有一段时间很多计算机期刊.书籍和网站都大肆的提及和宣传WebService技术,其中不乏很多吹嘘和做广告的成 分.但是不得不承认的是W ...
- 【转载】轻松搞懂WebService工作原理
用更简单的方式给大家谈谈WebService,让你更快更容易理解,希望对初学者有所帮助. WebService是基于网络的.分布式的模块化组件. 我们直接来看WebService的一个简易工作流程: ...
- Android设置系统开机自己主动永不休眠
android4.2系统增永不休眠同一时候隐藏休眠选项 1. android\frameworks\base\packages\SettingsProvider\res\values\defaults ...
- app发布流程
在app上架之前做两件事(instruments,profile): 1.代码静态分析:不用运行程序,直接检测代码有没有潜在的一些内存泄漏 2.动态分析:a l loctions/leaks 内存溢出 ...
- 无节操cocos2d-js游戏
1. <看谁抽得快> 2. <拍苍蝇> 3. <月饼达人> 4. <亲吻小游戏> 下面这些是本人做的,需要源代码的可以回复我 ps:全部采 ...