背景: 做大规模机器学习算法,特别是神经网络最怕什么--没有数据!!没有数据意味着,机器学不会,人工不智能!通常使用样本增强来扩充数据一直都是解决这个问题的一个好方法. 最近的一篇论文<Training Neural Networks with Very Little Data-A Draft>提出了一个新的图像样本增强方法:对图像使用径向变换生成不同"副本",解决样本数量太少难以训练的问题.论文地址:https://arxiv.org/pdf/1708.04347.pdf…
最近拜读大神Karpathy的经验之谈 A Recipe for Training Neural Networks  https://karpathy.github.io/2019/04/25/recipe/,这个秘籍对很多深度学习算法训练过程中遇到的各自问题进行了总结,并提出了很多很好的建议,翻译于此,希望能够帮助更多人学到这些内容. 译文如下: 几周前,我发布了一条关于“最常见的神经网络错误”的推文,列出了一些与训练神经网络相关的常见问题.这条推文得到了比我预期的要多得多的认同(包括网络研讨…
A Recipe for Training Neural Networks Andrej Karpathy blog  2019-04-27 09:37:05 This blog is copied from:https://karpathy.github.io/2019/04/25/recipe/ Some few weeks ago I posted a tweet on “the most common neural net mistakes”, listing a few common…
1506.01186-Cyclical Learning Rates for Training Neural Networks 论文中提出了一种循环调整学习率来训练模型的方式. 如下图: 通过循环的线性调整学习率,论文作者观察到的一种比较典型的曲线如下图: 图中,使用循环调整方式的模型,虽然训练中准确度有很大的波动,但是这种波动并不影像模型很快的收敛,并且以更快的速度收敛到了固定学习率或者学习率衰减方案中能达到的最高准确率. 这种方式需要设置的超参有三个, min bound,max bound…
Training Neural Networks: Q&A with Ian Goodfellow, Google Neural networks require considerable time and computational firepower to train. Previously, researchers believed that neural networks were costly to train because gradient descent slows down n…
课程主页:http://cs231n.stanford.edu/   Introduction to neural networks -Training Neural Network ______________________________________________________________________________________________________________________________________________________________…
CS231n Winter 2016: Lecture 5: Neural Networks Part 2 CS231n Winter 2016: Lecture 6: Neural Networks Part 3 by Andrej Karpathy 本章节主要讲解激活函数,参数初始化以及周边的知识体系. Ref: <深度学习>第八章 - 深度模型中的优化 Overview 1. One time setup activation functions, preprocessing, weig…
原文: 二值神经网络(Binary Neural Network,BNN) 在我刚刚过去的研究生毕设中,我在ImageNet数据集上验证了图像特征二值化后仍然具有很强的表达能力,可以在检索中达到较好的效果.而Bengio大神的这篇文章,则不止于将特征二值化,而是要将权重和每层的激活值统统二值化.相比于非二值化的网络,将大量的数学运算变成了位操作.这样就节省了大量的空间而前向传播的时间,使神经网络的应用门槛变得更低. 本文是阅读Bengio二值化网络文章的笔记,特此声明. 要想使整个神经网络二值化…
课程主页:http://cs231n.stanford.edu/ _______________________________________________________________________________________________________________________________________________________ -Parameter Updates 解决的方法: *Momentum update 其实就是把x再加上mu*v(可以看作是下滑过…
1. 优化: 1.1 随机梯度下降法(Stochasitc Gradient Decent, SGD)的问题: 1)对于condition number(Hessian矩阵最大和最小的奇异值的比值)很大的loss function,一个方向梯度变化明显,另一个方向梯度变化很缓慢,SGD在优化过程中会震荡着下降,导致优化很慢.深度学习的网络会有上百万甚至更多的参数需要优化,在这个上百万维的空间里,更容易出现各个维度梯度变化差别很大的问题. 2)陷落在局部最小点或者鞍点(saddle point).…