  • 张量shape参数理解


  1. shape=(100,784)
  2. 代表该张量有两个维度,第一个维度长度为100,第二个维度长度为784,二维数组100784
  3. shape=(2,)
  4. 代表该张量有一个维度,第一个维度长度为2,一维数组12


  1. # 例:
  2. [[[1,2,3],[4,5,6]]]
  3. # 第一个维度中只有一个元素[[1,2,3][4,5,6]],所以第一个维度长度为1
  4. # 第二个维度中有两个元素[1,2,3][4,5,6],所以第二个维度长度为2
  5. # 第三个维度中有三个元素“1,2,3”或“4,5,6”,所以第三个维度长度为3
  6. # 那么它的shape参数就是[1,2,3]
  • tf.trainable_variables(), tf.global_variables()的使用



  1. __init__(
  2. initial_value=None,
  3. trainable=True,
  4. collections=None,
  5. validate_shape=True,
  6. ...
  7. )

对于一些我们不需要训练的变量,将trainable设置为False,这时tf.trainable_variables() 就不会打印这些变量。


  1. w1 = tf. Variable (tf. randon_normal ([256, 2000]),'w1' )
  2. b1 = tf.get_ variable('b1', [2000])
  3. learning_ rate = tf. Variable(0.5, trainable=False)
  4. global_ step = tf. Variable(0, trainable=False)
  1. trainable_ params = tf. trainable_ variables()
  2. trainable_ params
  3. [<tf. VariableVariable:0' shape= (256,2000) dtype=float32_ ref>,
  4. <tf. Variable’ b1:0”shape= (2000,) dtype=float32_ ref>]


  1. vith tf. variable_ scope(' var' ):
  2. w2 = tf.get. variable('w2' , [3, 3])
  3. w3 = tf.get. variable(' w3',[3, 3])


  1. trainable. params = tf.trainable.variables ()
  2. trainable_ params
  3. [<tf. Variable vrar/w2:0shape=(3, 3) dtype=float32_ ref>,
  4. <tf. Variablew3:0' shape=(3, 3) dtype=float32_ ref>]


  1. scope_ parans = tf. trainable_ variables (scope-' var' )
  2. scope par ains
  3. [<tf. Variable var/w2:0' shape=(3, 3) dtype=float32_ ref>]



  1. global parans = tf. global variables()
  2. global_ params
  3. [<tf. VariableVariable:0' shape=(256, 2000) dtype=float32_ ref>,
  4. <tf. Variable ' b1:0' shape= (2000,) dtype-float32_ ref>,
  5. <tf. Variable。Variable_ 1:0’shape=0 dtype=float32_ ref>,
  6. <tf. Variable' Variable_ 2:0 shape=() dtype=int32_ ref>]


  • Optimizer.minimize()与Optimizer.compute_gradients()和Optimizer.apply_gradients()的用法



  1. def minimize(self, loss, global_step=None, var_list=None,
  2. gate_gradients=GATE_OP, aggregation_method=None,
  3. colocate_gradients_with_ops=False, name=None,
  4. grad_loss=None):
  5. grads_and_vars = self.compute_gradients(
  6. loss, var_list=var_list, gate_gradients=gate_gradients,
  7. aggregation_method=aggregation_method,
  8. colocate_gradients_with_ops=colocate_gradients_with_ops,
  9. grad_loss=grad_loss)
  10. vars_with_grad = [v for g, v in grads_and_vars if g is not None]
  11. if not vars_with_grad:
  12. raise ValueError(
  13. "No gradients provided for any variable, check your graph for ops"
  14. " that do not support gradients, between variables %s and loss %s." %
  15. ([str(v) for _, v in grads_and_vars], loss))
  16. return self.apply_gradients(grads_and_vars, global_step=global_step,
  17. name=name)


loss:  `Tensor` ,需要优化的损失; 
      var_list: 需要更新的变量(tf.Varialble)组成的列表或者元组,默认值为`GraphKeys.TRAINABLE_VARIABLES`,即tf.trainable_variables()


1、Optimizer.minimize(loss, var_list)中,计算loss所涉及的变量(假设为var(loss))包含在var_list中,也就是var_list中含有多余的变量,并不 影响程序的运行,而且优化过程中不改变var_list里多出变量的值;

2、若var_list中的变量个数少于var(loss),则优化过程中只会更新var_list中的那些变量的值,var(loss)里多出的变量值 并不会改变,相当于固定了网络的某一部分的参数值。


  1. compute_gradients(self, loss, var_list=None,
  2. gate_gradients=GATE_OP,
  3. aggregation_method=None,
  4. colocate_gradients_with_ops=False,
  5. grad_loss=None):

里面参数的定义与minimizer()函数里面的一致,var_list的默认值也一样。需要特殊说明的是,如果var_list里所包含的变量多于var(loss),则程序会报错。其返回值是(gradient, variable)对所组成的列表,返回的数据格式也都是“tf.Tensor”。我们可以通过变量名称的管理来过滤出里面的部分变量,以及对应的梯度。

  1. apply_gradients(self, grads_and_vars, global_step=None, name=None)

grads_and_vars的格式就是compute_gradients()所返回的(gradient, variable)对,当然数据类型也是“tf.Tensor”,作用是,更新grads_and_vars中variable的梯度,不在里面的变量的梯度不变。


  1. tf.trainable_variables()

