I optimizer.minimize(loss, var_list)

我们都知道，TensorFlow为我们提供了丰富的优化函数，例如GradientDescentOptimizer。这个方法会自动根据loss计算对应variable的导数。示例如下：

loss = ...

opt = tf.tf.train.GradientDescentOptimizer(learning_rate=0.1)

train_op = opt.minimize(loss)

init = tf.initialize_all_variables()

with tf.Seesion() as sess:

    sess.run(init)

    for step in range(10):

      session.run(train_op)

首先我们看一下minimize()的源代码(为方便说明，部分参数已删除):

def minimize(self, loss, global_step=None, var_list=None, name=None):

    grads_and_vars = self.compute_gradients(loss, var_list=var_list)

    vars_with_grad = [v for g, v in grads_and_vars if g is not None]

    if not vars_with_grad:

      raise ValueError(

          "No gradients provided for any variable, check your graph for ops"

          " that do not support gradients, between variables %s and loss %s." %

          ([str(v) for _, v in grads_and_vars], loss))

    return self.apply_gradients(grads_and_vars, global_step=global_step,

                                name=name)

由源代码可以知道minimize()实际上包含了两个步骤，即compute_gradients和apply_gradients，前者用于计算梯度，后者用于使用计算得到的梯度来更新对应的variable。下面对这两个函数做具体介绍。

II computer_gradients(loss, val_list)

参数含义:

loss: 需要被优化的Tensor
val_list: Optional list or tuple of tf.Variable to update to minimize loss. Defaults to the list of variables collected in the graph under the key GraphKeys.TRAINABLE_VARIABLES.

简单说该函数就是用于计算loss对于指定val_list的导数的，最终返回的是元组列表，即[(gradient, variable),...]。

看下面的示例

x = tf.Variable(initial_value=50., dtype='float32')

w = tf.Variable(initial_value=10., dtype='float32')

y = w*x

opt = tf.train.GradientDescentOptimizer(0.1)

grad = opt.compute_gradients(y, [w,x])

with tf.Session() as sess:

    sess.run(tf.global_variables_initializer())

    print(sess.run(grad))

返回值如下:

>>> [(50.0, 10.0), (10.0, 50.0)]

可以看到返回了一个list，list中的元素是元组。第一个元组第一个元素是50，表示$\frac{\partial{y}}{\partial{w}}$的计算结果，第二个元素表示$w$。第二个元组同理不做赘述。

其中tf.gradients(loss, tf.variables)的作用和这个函数类似,但是它只会返回计算得到的梯度，而不会返回对应的variable。

with tf.Graph().as_default():

    x = tf.Variable(initial_value=3., dtype='float32')

    w = tf.Variable(initial_value=4., dtype='float32')

    y = w*x

    grads = tf.gradients(y, [w])

    print(grads)

    opt = tf.train.GradientDescentOptimizer(0.1)

    grads_vals = opt.compute_gradients(y, [w])

    print(grad_vals)

>>>

[<tf.Tensor 'gradients/mul_grad/Mul:0' shape=() dtype=float32>]

[(<tf.Tensor 'gradients_1/mul_grad/tuple/control_dependency:0' shape=() dtype=float32>, <tf.Variable 'Variable_1:0' shape=() dtype=float32_ref>)]

III apply_gradients(grads_and_vars, global_step=None, name=None)

该函数的作用是将compute_gradients()返回的值作为输入参数对variable进行更新。

那为什么minimize()会分开两个步骤呢？原因是因为在某些情况下我们需要对梯度做一定的修正，例如为了防止梯度消失(gradient vanishing)或者梯度爆炸(gradient explosion)，我们需要事先干预一下以免程序出现Nan的尴尬情况；有的时候也许我们需要给计算得到的梯度乘以一个权重或者其他乱七八糟的原因，所以才分开了两个步骤。

IV Example

下面给出一个使用tf.clip_by_norm来修正梯度的例子:

with tf.Graph().as_default():

    x = tf.Variable(initial_value=3., dtype='float32')

    w = tf.Variable(initial_value=4., dtype='float32')

    y = w*x

    opt = tf.train.GradientDescentOptimizer(0.1)

    grads_vals = opt.compute_gradients(y, [w])

    for i, (g, v) in enumerate(grads_vals):

        if g is not None:

            grads_vals[i] = (tf.clip_by_norm(g, 5), v)  # clip gradients

    train_op = opt.apply_gradients(grads_vals)

    with tf.Session() as sess:

        sess.run(tf.global_variables_initializer())

        print(sess.run(grads_vals))

        print(sess.run([x,w,y]))

>>>

[(3.0, 4.0)]

[3.0, 4.0, 12.0]

其他的tf.clip_by_*方法可参看TensorFlow学习笔记之--[tf.clip_by_global_norm,tf.clip_by_value,tf.clip_by_norm等的区别]

TensorFlow学习笔记之--[compute_gradients和apply_gradients原理浅析]的更多相关文章

tensorflow学习笔记——使用TensorFlow操作MNIST数据（1）
续集请点击我:tensorflow学习笔记——使用TensorFlow操作MNIST数据(2) 本节开始学习使用tensorflow教程,当然从最简单的MNIST开始.这怎么说呢,就好比编程入门有He ...
tensorflow学习笔记——自编码器及多层感知器
1,自编码器简介传统机器学习任务很大程度上依赖于好的特征工程,比如对数值型,日期时间型,种类型等特征的提取.特征工程往往是非常耗时耗力的,在图像,语音和视频中提取到有效的特征就更难了,工程师必须在这 ...
Tensorflow学习笔记No.4.1
使用CNN卷积神经网络(1) 简单介绍CNN卷积神经网络的概念和原理. 已经了解的小伙伴可以跳转到Tensorflow学习笔记No.4.2学习如和用Tensorflow实现简单的卷积神经网络. 1.C ...
Tensorflow学习笔记No.7
tf.data与自定义训练综合实例使用tf.data自定义猫狗数据集,并使用自定义训练实现猫狗数据集的分类. 1.使用tf.data创建自定义数据集我们使用kaggle上的猫狗数据以及tf.dat ...
Tensorflow学习笔记No.8
使用VGG16网络进行迁移学习使用在ImageNet数据上预训练的VGG16网络模型对猫狗数据集进行分类识别. 1.预训练网络预训练网络是一个保存好的,已经在大型数据集上训练好的卷积神经网络. 如 ...
Tensorflow学习笔记2：About Session, Graph, Operation and Tensor
简介上一篇笔记:Tensorflow学习笔记1:Get Started 我们谈到Tensorflow是基于图(Graph)的计算系统.而图的节点则是由操作(Operation)来构成的,而图的各个节 ...
Tensorflow学习笔记2019.01.22
tensorflow学习笔记2 edit by Strangewx 2019.01.04 4.1 机器学习基础 4.1.1 一般结构: 初始化模型参数:通常随机赋值,简单模型赋值0 训练数据:一般打乱 ...
Tensorflow学习笔记2019.01.03
tensorflow学习笔记: 3.2 Tensorflow中定义数据流图张量知识矩阵的一个超集. 超集:如果一个集合S2中的每一个元素都在集合S1中,且集合S1中可能包含S2中没有的元素,则集合S ...
深度学习-tensorflow学习笔记(1)-MNIST手写字体识别预备知识
深度学习-tensorflow学习笔记(1)-MNIST手写字体识别预备知识在tf第一个例子的时候需要很多预备知识. tf基本知识香农熵交叉熵代价函数cross-entropy 卷积神经网络 s ...

随机推荐

linux文件系统启动流程、启动脚本
linux文件系统启动流程.启动脚本下面是一张Linux启动流程图: 在了解启动流程之前,我们应该先知道系统的几个重要脚本和配置文件,他们对应的路径为: 1. /sbin/init 2. /etc/ ...
Luogu P3181 [HAOI2016]找相同字符广义$SAM$
题目链接 $Click$ $Here$ 设一个串$s$在$A$中出现$cnt[s][1]$次,在$B$中出现$cnt[s][2]$次,我们要求的就是: \[\sum cnt ...
RJ45连接器
http://www.huilyn.com/path315.html HBJ-6308ANLF http://www.hanrun.com/en/ HR971169C h ...
1411 - Ants(巨人与鬼)
参考博客紫薯P230 题意:给出平面上n个白点n个黑点,要求两两配对,且配对所连线段没有交点. 紫薯思路:找出y坐标最小的点,如果多个,考虑x最小的.将其他点相对于这个点按极角从小到大排序,然后开始 ...
maven依赖包下载地址
http://maven.org http://mvnrepository.com/
python js(JavaScript)初识
####################总结############## 引入: 可以在body标签中放入<script type=”text/javascript”></scrip ...
Linux记录-JMX监控Tomcat上传到falcon
1.登录测试服务器xxxxxx xxxxxx su root输入xxxx 2.先修改Tomcat的启动脚本,(linux下为catalina.sh),添加以下内容: CATALINA_OPTS=&qu ...
HDU 1064(求平均数 **)
题意是求 12 个浮点数的平均数,这题不用读题,看到运行时间为 200 ms 再看下样例就能猜出题目的要求了,代码如下: #include <bits/stdc++.h> using na ...
Shell编程（六）awk工具
1. {print} coins.txt gold USA American Eagle gold Austria Franz Josef Korona silver USA ingot gold S ...
09、在QQ音乐中查找七里香这首歌的精彩评论
找到七里香这首歌的精彩评论 URL https://c.y.qq.com/base/fcgi-bin/fcg_global_comment_h5.fcg?g_tk=5381&l ...