目录 概 主要内容 Glorot X, Bengio Y. Understanding the difficulty of training deep feedforward neural networks[C]. international conference on artificial intelligence and statistics, 2010: 249-256. @article{glorot2010understanding, title={Understanding the…
1. 摘要 本文尝试解释为什么在深度的神经网络中随机初始化会让梯度下降表现很差,并且在此基础上来帮助设计更好的算法. 作者发现 sigmoid 函数不适合深度网络,在这种情况下,随机初始化参数会让较深的隐藏层陷入到饱和区域. 作者提出了一个新的参数初始化方法,称之为 Xavier 初始化,来帮助深度网络更快地收敛. 2. 激活函数的作用以及训练过程中的饱和现象 2.1. 三种激活函数 \[Tanh(x)=\frac{1-e^{-x}}{1+e^{-x}}\] \[Sigmoid(x)=\frac…
本文作者为:Xavier Glorot与Yoshua Bengio. 本文干了点什么呢? 第一步:探索了不同的激活函数对网络的影响(包括:sigmoid函数,双曲正切函数和softsign y = x/(1+|x|) 函数). 文中通过不断的实验:1,来monitor网络中隐藏单元的激活值来观察它的饱和性:2. 梯度.    并且evaluate 所选择的激活函数与初始化方法(预训练被看作一种特殊的初始化方法). 实验数据的选择: 无穷多的训练集:ShapeSet-3*2: 它这个数据3集上进行…
这篇文章主要介绍了一个名为Aluminum通信库,在这个库中主要针对Allreduce做了一些关于计算通信重叠以及针对延迟的优化,以加速分布式深度学习训练过程. 分布式训练的通信需求 通信何时发生 一般来说,神经网络的训练过程分为三步:前向传播.反向传播以及参数优化.在使用数据并行进行分布式训练的情况下,通信主要发生在反向传播之后与参数优化之前,在此阶段各个计算节点需要进行梯度的同步.广义上来讲,梯度的同步过程符合Allreduce语义.从实现上来说,我们既可以通过中心化的参数服务器架构来实现梯…
本文发表在MLHPC 2018上,主要介绍了一个名为Aluminum通信库,这个库针对Allreduce做了一些关于计算通信重叠以及针对延迟的优化,以加速分布式深度学习训练过程. 分布式训练的通信需求 通信何时发生 一般来说,神经网络的训练过程分为三步:前向传播.反向传播以及参数优化.在使用数据并行进行分布式训练的情况下,通信主要发生在反向传播之后与参数优化之前,在此阶段各个计算节点需要进行梯度的同步.广义上来讲,梯度的同步过程符合Allreduce语义.从实现上来说,我们既可以通过中心化的参数…
本文主要研究HPC上进行数据并行训练的可行性.作者首先在HPC上实现了两种通信量化算法(1 Bit SGD以及阈值量化),然后提出了自适应量化算法以解决它们的缺点.此外,发挥出量化算法的性能,作者还自己实现了一个Allreduce算法. 1 Bit SGD可以实现良好的重构和较低的误差,但与阈值量化相比,它的计算开销更大,并且压缩率不能达到32倍以上.阈值量化速度很快,但是不同的模型需要设置不同的阈值,而且选择好的阈值也很困难,并且使用阈值\(\tau\)作为重建值是次优的.如果阈值设置的比较小…
http://handong1587.github.io/deep_learning/2015/10/09/training-dnn.html  //转载于 Training Deep Neural Networks  Published: 09 Oct 2015  Category: deep_learning Tutorials Popular Training Approaches of DNNs — A Quick Overview https://medium.com/@asjad/p…
CS231n Winter 2016: Lecture 5: Neural Networks Part 2 CS231n Winter 2016: Lecture 6: Neural Networks Part 3 by Andrej Karpathy 本章节主要讲解激活函数,参数初始化以及周边的知识体系. Ref: <深度学习>第八章 - 深度模型中的优化 Overview 1. One time setup activation functions, preprocessing, weig…
The Impact of Imbalanced Training Data for Convolutional Neural Networks Paulina Hensman and David Masko 摘要 本论文从实验的角度调研了训练数据的不均衡性对采用CNN解决图像分类问题的性能影响.CIFAR-10数据集包含10个不同类别的60000个图像,用来构建不同类间分布的数据集.例如,一些训练集中包含一个类别的图像数目与其他类别的图像数目比例失衡.用这些训练集分别来训练一个CNN,度量其得…
课程主页:http://cs231n.stanford.edu/   Introduction to neural networks -Training Neural Network ______________________________________________________________________________________________________________________________________________________________…