1998_Efficient Backprop笔记

A few practical tricks

1. Stochastic vs Batch learning

在最小值附近震荡的幅度与学习速率成比例，为了减小震荡，可以减小学习速率或者使用自适应的batch size。

有理论证明以下这种形式的学习速率最好：

其中t是类别数，c是一个常量，实际上，这个速率可能太快。

另一种消除噪声的方法是用mini-batch，就是开始用一个小的batch size，然后随着训练进行增加。但是如何增加和调整学习速率一样困难。

2. Shuffling the examples

网络从未知样本学习最快，因此要在每一次迭代选择最不熟悉的样本。这个方法只适用于SGD，最简单的方式是选择连续的不同类的样本。

3. Normalizing the inputs

4. The Sigmoid

用对称的sigmoid函数有一个潜在的问题，那就是误差平面会变得很平坦，因此应该避免用很小的值初始化weights。

5. Choosing Target Values

6. Initializing the weights

7. Choosing Learning Rates

一般情况下权重向量震荡时减小学习速率，而始终保持稳定的方向则增加，但是不适用于SGD和online learning，因为他们始终在震荡。

Momentum：

其中u是momentum的强度，当误差平面是非球形（nonspherical），它增加了收敛速度因为它减小了高曲率方向的step，从而在低曲率部分增加了学习速率的影响。它通常在batch learning中比SGD更有效。

Adaptive Learning Rates：

这个方法实际上很容易实现，其实就是track公式18中的矩阵，平均梯度r。这个矩阵的norm控制学习速率的大小。

8. Radial Basis Functions vs Sigmoid Units

RBF神经网络：

sigmoid单元可以覆盖整个输入空间，但是一个RBF单元只能覆盖一个小的局部空间，因此它的学习更快。但是在高维空间中它需要更多的单元去覆盖整个空间，因此RBF适合作为高层而sigmoid适合作为低层单元。

Convergence of Gradient Descent

1. A little theory

具体理论分析见文章。

理论内容包括：特征向量和特征值，Hessian矩阵，协方差矩阵。

结论：

如果对所有的weight约定一个学习速率，那么

2. Two examples

b. Multilayer Network

3. 以上的理论可以证明这几个tricks：

zz1998_Efficient Backprop笔记的更多相关文章

Deep Learning 16：用自编码器对数据进行降维_读论文“Reducing the Dimensionality of Data with Neural Networks”的笔记
前言论文“Reducing the Dimensionality of Data with Neural Networks”是深度学习鼻祖hinton于2006年发表于<SCIENCE > ...
MXNet设计笔记之：深度学习的编程模式比较
市面上流行着各式各样的深度学习库,它们风格各异.那么这些函数库的风格在系统优化和用户体验方面又有哪些优势和缺陷呢?本文旨在于比较它们在编程模式方面的差异,讨论这些模式的基本优劣势,以及我们从中可以学到 ...
神经网络与深度学习笔记 Chapter 1.
转载请注明出处:http://www.cnblogs.com/zhangcaiwang/p/6875533.html sigmoid neuron 微小的输入变化导致微小的输出变化,这种特性将会使得学 ...
CS231n官方笔记授权翻译总集篇发布
CS231n简介 CS231n的全称是CS231n: Convolutional Neural Networks for Visual Recognition,即面向视觉识别的卷积神经网络.该课程是斯 ...
CS231n课程笔记翻译8：神经网络笔记 part3
译者注:本文智能单元首发,译自斯坦福CS231n课程笔记Neural Nets notes 3,课程教师Andrej Karpathy授权翻译.本篇教程由杜客翻译完成,堃堃和巩子嘉进行校对修改.译文含 ...
CS231n课程笔记翻译5：反向传播笔记
译者注:本文智能单元首发,译自斯坦福CS231n课程笔记Backprop Note,课程教师Andrej Karpathy授权翻译.本篇教程由杜客翻译完成,堃堃和巩子嘉进行校对修改.译文含公式和代码, ...
【cs231n】反向传播笔记
前言首先声明,以下内容绝大部分转自知乎智能单元,他们将官方学习笔记进行了很专业的翻译,在此我会直接copy他们翻译的笔记,有些地方会用红字写自己的笔记,本文只是作为自己的学习笔记.本文内容官网链接: ...
基于3D卷积神经网络的人体行为理解（论文笔记）（转）
基于3D卷积神经网络的人体行为理解(论文笔记) zouxy09@qq.com http://blog.csdn.net/zouxy09 最近看Deep Learning的论文,看到这篇论文:3D Co ...
笔记：CS231n+assignment1（作业一）
CS231n的课后作业非常的好,这里记录一下自己对作业一些笔记. 一.第一个是KNN的代码,这里的trick是计算距离的三种方法,核心的话还是python和machine learning中非常实用的 ...

随机推荐

[PHP] 阿里云 Composer 全量镜像
阿里云 Composer 全量镜像镜像地址:https://mirrors.aliyun.com/composer/
Exception "java.lang.ClassNotFoundException: com/intellij/codeInsight/editorActions/FoldingData"while constructing DataFlavor for: application/x-java-jvm-local-objectref; class=com.intellij.codeInsigh
java.lang.ClassNotFoundException in matlabR2014a 就是MATLAB和pycharm不能同时运行.关闭pycharm然后打开MATLAB就可以了.
rapoo mt700键盘mac osx不能复制问题
问题描述:rapoo mt700键盘mac osx,按windows建+c不能复制,其它按键正常解决办法:检查右上角windows等是否亮,如果是亮着按FN+WIN 切换模式操作方法: 有线模式: ...
LeetCode 155：最小栈 Min Stack
LeetCode 155:最小栈 Min Stack 设计一个支持 push,pop,top 操作,并能在常数时间内检索到最小元素的栈. push(x) -- 将元素 x 推入栈中. pop() -- ...
linux内核参数sysctl.conf,TCP握手ack,洪水攻击syn，超时关闭wait
题记:优化Linux内核sysctl.conf参数来提高服务器并发处理能力 PS:在服务器硬件资源额定有限的情况下,最大的压榨服务器的性能,提高服务器的并发处理能力,是很多运维技术人员思考的问题.要提 ...
EntityFrameworkCore 学习笔记之示例一
直接贴代码了: 1. Program.cs using Microsoft.EntityFrameworkCore; using System; using System.Threading.Task ...
Elasticsearch(ES) 创建索引
欢迎关注笔者的公众号: 小哈学Java, 每日推送 Java 领域干货文章,关注即免费无套路附送 100G 海量学习.面试资源哟!! 个人网站: https://www.exception.site/ ...
Git在提交代码时出现的fatal: Authentication failed的问题
git push origin master remote: Incorrect username or password ( access token ) fatal: Authentication ...
iis7 下配置 ASP.NET MVC 项目遇到的问题（WIN7 64位旗舰版第一次配置站点）
转自 https://www.cnblogs.com/Leo_wl/p/3866625.html,再次感谢指定的目录或文件在 Web 服务器上不存在. URL 拼写错误. 某个自定义筛选器或模块(如 ...
BUUCTF 随便注
知识点: ##堆叠注入 #预语句注入 https://www.cnblogs.com/0nth3way/articles/7128189.html#autoid-1-0-0 正则过滤了很多关键字导致无 ...

zz1998_Efficient Backprop笔记

1998_Efficient Backprop笔记

zz1998_Efficient Backprop笔记的更多相关文章

随机推荐

热门专题