AI-Tensorflow-神经网络优化算法-梯度下降算法-学习率

记录内容来自《Tensorflow实战Google一书》及MOOC人工智能实践 http://www.icourse163.org/learn/PKU-1002536002?tid=1002700003

--梯度下降算法主要用于优化单个参数的取值，反向传播算法给出了一个高效的方式在所有参数上使用梯度下降算法。

从而神经网络模型在训练数据的孙师函数尽可能小。

--反向传播算法是训练神经网络的核心算法，它可以跟据定义好的损失函数优化神经网络中参数的取值，从而使神经网络模型在训练数据集上的损失函数达到一个较小值。

假设损失函数如下：

x轴表示参数取值， y轴表示损失函数的值。，假设当前的参数和损失函数值的位置为图中小黑点的位置，那么梯度下降算法将会将参数向x轴左侧移动，从而使小圆点朝箭头的方向

移动。参数的梯度可以通过求骗到的方式计算。

通过以下是实例来解释梯度下降算法作用于损失函数的应用。

根据例子我们可以看出梯度下降算法可以顺利的使参数值朝着真实的值靠近。但是它并不能保证被优化的函数达到全局最优解。如下图实例所示：

为解决这一问题引进了随机梯度下降算法（stochastic gradient descent）:这个算法优化的不是在全部训练数据上的损失函数，而是在每一轮迭代中，随机优化

某一条训练数据上的损失函数。

神经网络的进一步优化

学习率的设置：

学习率表示了每次参数更新的幅度大小。学习率过大，会导致待优化的参数在最小值附近波动，不收敛；学习率过小，会导致待优化的参数收敛缓慢。

在训练过程中，参数的更新向着损失函数梯度下降的方向。

一个实例：来自大学MOOCTensorflow笔记

通过梯度下降算法优化损失函数 loss= (w+1)^2, w初始值设置为20，学习率设置为0.2，定义反向传播算法最后得到w的值为-1， loss为0，符合函数曲线。

如果学习率设置为1 则会出现不收敛的情况

 #coding:utf-8
 #设损失函数 loss=(w+1)^2, 令w初值是常数5。反向传播就是求最优w，即求最小loss对应的w值
 import tensorflow as tf
 #定义待优化参数w初值赋5
 w = tf.Variable(tf.constant(20, dtype=tf.float32))
 #定义损失函数loss
 loss = tf.square(w+1)
 #定义反向传播方法
 train_step = tf.train.GradientDescentOptimizer(0.2).minimize(loss)
 #生成会话，训练40轮
 with tf.Session() as sess:
     init_op=tf.global_variables_initializer()
     sess.run(init_op)
     for i in range(40):
         sess.run(train_step)
         w_val = sess.run(w)
         loss_val = sess.run(loss)
         print "After %s steps: w is %f,   loss is %f." % (i, w_val,loss_val)

学习率为0.2运行结果如下，较正常的结果：

学习率为1则会出现震荡不收敛的结果w的值在20和-22之间跳动，这就是不收敛：

为了解决设定学习率的问题， Tensorflow提供了一种更加灵活的学习率设置方法--指数衰减法

指数衰减学习率：学习率随着训练轮数变化而动态更新，通过这个函数，可以先使用较大的学习率来快速得到一个比较优的解，然后随着迭代的接续逐步减小学习率，

是的模型在训练后期更加稳定。

学习率计算公式如下：

用 Tensorflow 的函数表示为：
global_step = tf.Variable(0, trainable=False)
learning_rate = tf.train.exponential_decay(
LEARNING_RATE_BASE,
global_step,
LEARNING_RATE_STEP, LEARNING_RATE_DECAY,
staircase=True/False)
其中， LEARNING_RATE_BASE 为学习率初始值， LEARNING_RATE_DECAY 为学习率衰减率,global_step 记
录了当前训练轮数，为不可训练型参数。学习率 learning_rate 更新频率为输入数据集总样本数除以每
次喂入样本数。若 staircase 设置为 True 时，表示 global_step/learning rate step 取整数，学习
率阶梯型衰减；若 staircase 设置为 false 时，学习率会是一条平滑下降的曲线。

一般来说初始学习率、衰减系数和衰减速度都是根据经验设置的。而且损失函数下降的速度和迭代结束之后总损失的大小没有必然的联系。

也就是说不能通过前几轮损失函数下降的速度来比较不同神经网络的效果。

 #coding:utf-8
 #设损失函数 loss=(w+1)^2, 令w初值是常数10。反向传播就是求最优w，即求最小loss对应的w值
 #使用指数衰减的学习率，在迭代初期得到较高的下降速度，可以在较小的训练轮数下取得更有收敛度。
 import tensorflow as tf
 
 LEARNING_RATE_BASE = 0.1 #最初学习率
 LEARNING_RATE_DECAY = 0.99 #学习率衰减率
 LEARNING_RATE_STEP = 1  #喂入多少轮BATCH_SIZE后，更新一次学习率，一般设为：总样本数/BATCH_SIZE
 
 #运行了几轮BATCH_SIZE的计数器，初值给0, 设为不被训练
 global_step = tf.Variable(0, trainable=False)
 #定义指数下降学习率
 learning_rate = tf.train.exponential_decay(LEARNING_RATE_BASE, global_step, LEARNING_RATE_STEP, LEARNING_RATE_DECAY, staircase=True)
 #定义待优化参数，初值给10
 w = tf.Variable(tf.constant(10, dtype=tf.float32))
 #定义损失函数loss
 loss = tf.square(w+1)
 #定义反向传播方法
 train_step = tf.train.GradientDescentOptimizer(learning_rate).minimize(loss, global_step=global_step)
 #生成会话，训练40轮
 with tf.Session() as sess:
     init_op=tf.global_variables_initializer()
     sess.run(init_op)
     for i in range(40):
         sess.run(train_step)
         learning_rate_val = sess.run(learning_rate)
         global_step_val = sess.run(global_step)
         w_val = sess.run(w)
         loss_val = sess.run(loss)
         print "After %s steps: global_step is %f, w is %f, learning rate is %f, loss is %f" % (i, global_step_val, w_val, learning_rate_val, loss_val)

由结果看出学习率在不断的减小

AI-Tensorflow-神经网络优化算法-梯度下降算法-学习率的更多相关文章

机器学习之路：深度学习 tensorflow 神经网络优化算法学习率的设置
在神经网络中,广泛的使用反向传播和梯度下降算法调整神经网络中参数的取值. 梯度下降和学习率: 假设用 θ 来表示神经网络中的参数, J(θ) 表示在给定参数下训练数据集上损失函数的大小. 那么整个优化 ...
神经网络优化算法：梯度下降法、Momentum、RMSprop和Adam
最近回顾神经网络的知识,简单做一些整理,归档一下神经网络优化算法的知识.关于神经网络的优化,吴恩达的深度学习课程讲解得非常通俗易懂,有需要的可以去学习一下,本人只是对课程知识点做一个总结.吴恩达的深度 ...
神经网络优化算法：Dropout、梯度消失/爆炸、Adam优化算法，一篇就够了！
1. 训练误差和泛化误差机器学习模型在训练数据集和测试数据集上的表现.如果你改变过实验中的模型结构或者超参数,你也许发现了:当模型在训练数据集上更准确时,它在测试数据集上却不⼀定更准确.这是为什么呢 ...
神经网络优化算法如何选择Adam，SGD
之前在tensorflow上和caffe上都折腾过CNN用来做视频处理,在学习tensorflow例子的时候代码里面给的优化方案默认很多情况下都是直接用的AdamOptimizer优化算法,如下: o ...
机器学习算法（优化）之一：梯度下降算法、随机梯度下降（应用于线性回归、Logistic回归等等）
本文介绍了机器学习中基本的优化算法—梯度下降算法和随机梯度下降算法,以及实际应用到线性回归.Logistic回归.矩阵分解推荐算法等ML中. 梯度下降算法基本公式常见的符号说明和损失函数 X :所有 ...
[2] TensorFlow 向前传播算法(forward-propagation)与反向传播算法(back-propagation)
TensorFlow Playground http://playground.tensorflow.org 帮助更好的理解,游乐场Playground可以实现可视化训练过程的工具 TensorFlo ...
Tensorflow学习：（三）神经网络优化
一.完善常用概念和细节 1.神经元模型: 之前的神经元结构都采用线上的权重w直接乘以输入数据x,用数学表达式即,但这样的结构不够完善. 完善的结构需要加上偏置,并加上激励函数.用数学公式表示为:.其中 ...
梯度下降算法&线性回归算法
**机器学习的过程说白了就是让我们编写一个函数使得costfunction最小,并且此时的参数值就是最佳参数值. 定义假设存在一个代价函数 fun:\(J\left(\theta_{0}, \the ...
tensorflow随机梯度下降算法使用滑动平均模型
在采用随机梯度下降算法训练神经网络时,使用滑动平均模型可以提高最终模型在测试集数据上的表现.在Tensflow中提供了tf.train.ExponentialMovingAverage来实现滑动平均模 ...

随机推荐

前端之form表单与css（1）
目录一.form表单 1.1表单的属性 1.2input 1.2.1form表单提交数据的两种方式 1.3select标签 1.4label标签 1.5textarea多行文本标签二.CSS 2. ...
超低功耗研发-STM32L151C8T6芯片（一）时钟系统概述
前言: 由于之前对STM32Fxx系列相对熟悉,所以涉及到超低功耗设备时,自然就选用STM32家族的STM32Lxx系列产品. STM32L151C8T6 功能特点: (1)Flash:64k (2) ...
C#语句，console，C#//,/**/
].
如何查看本机上安装的.NET Framework版本
在开始菜单选择"运行", 或者快捷键 “windows键+R” 在命令窗口输入regedit.exe,打开注册表在注册表中定位到如下节点 HKEY_LOCAL_MACHINE\S ...
CentOS 7.5 通过kubeadm部署k8s-1.15.0
kubeadm是Kubernetes官方提供的用于快速安装Kubernetes集群的工具,伴随Kubernetes每个版本的发布都会同步更新,kubeadm会对集群配置方面的一些实践做调整,通过实验k ...
20180708-Java基本数据类型
public class PrimitiveTypeTest{ public static void main(String[] args){ //byte System.out.println(&q ...
Oracle dmp文件(表)导入与导出
dmp文件是作为oracle导入和导出表使用的文件格式dmp文件导出dmp文件导出用的比较多的一般是三种,他们分别是:1.导出整个数据库实例下的所有数据2.导出指定用户的所有表3.导出指定表. 打开命 ...
CodeForces - 587E[线段树+线性基+差分] ->(线段树维护区间合并线性基)
题意:给你一个数组,有两种操作,一种区间xor一个值,一个是查询区间xor的结果的种类数做法一:对于一个给定的区间,我们可以通过求解线性基的方式求出结果的种类数,而现在只不过将其放在线树上维护区间线 ...
python tensorflow windows环境搭建体验
1. 需先安装python3.7,anaconda包管理器(类似java的maven),tensorflow,pycharm开发工具.文末附件下载地址. 2. 安装tensorflow,开始-Anac ...
002-notepad++语言，编码，字体，背景色
一.基本操作 1.1.语言 Setting→Perferences→语言选择 1.2.默认编码编码→使用UTF-8 无BOM编码 1.3.字体 “设置”-->“语言格式设置”-->“字体 ...

AI-Tensorflow-神经网络优化算法-梯度下降算法-学习率

AI-Tensorflow-神经网络优化算法-梯度下降算法-学习率的更多相关文章

随机推荐

热门专题