Caffe学习笔记（二）：Caffe前传与反传、损失函数、调优

在caffe框架中，前传/反传（forward and backward）是一个网络中最重要的计算过程；损失函数（loss）是学习的驱动，类似于视频编码中的率失真代价，是衡量学习的程度，或者说，学习的目的是找到一个网络权重的集合，使得损失函数最小；Solver是通过协调网络的前向推断计算和反向计算来对参数进行更新，从而达到减小loss的目的。

下面将对forward and backward、loss、solver分别进行介绍。

1、前传/反传（forward and backward）

如前所述，前传和反传是一个网络中的最重要的计算过程。

所谓前传就是：给定的输入计算输出，在前传过程中，caffe组合每一层的计算得到整个模型的计算“函数”；需要注意的是：此过程是一个自底向上的过程。

所谓反传就是：根据损失来计算梯度从而进行学习，在反传过程中，caffe通过自动求导并反向组合每一层的梯度来计算整个网络的梯度，需要注意的是该过程自顶向下进行。

在caffe中，Net::Forward()和Net::Backward()方法实现网络的前传和反传，而Layer::Forward()和Layer::Backward()计算每一层的前传和反传。

Solver优化一个模型，首先通过调用前传获得输出和损失，然后调用反传产生模型的梯度，将梯度和权值更新后相结合来最小化损失。这样，使得Solver、网络和层之间的分工可以模块化且更加清晰。

2、损失函数（loss）

与视频编码中的率失真代价函数类似，损失函数或者误差/代价/目标函数通过将参数集（即当前的网络权值）映射到一个可以标识这些参数“不良程度”的标量值来学习目标，而学习的目的就是找到一个网络权重的集合，使得损失函数最小。

在caffe中，损失是通过网络的前向计算（前传）得到的，基本过程为：每一层由一系列的输入blobs（bottom）产生一系列的输出blobs（top），这些层的某些输出可以作为损失函数。对于含有多个损失层的网络，损失权值可以被用来指定它们之间的相对重要性。按照惯例，有着loss后缀的caffe层对损失函数有贡献，其它层被假定仅仅用于中间计算。然而，通过在层定义中添加一个loss_weight:<float>字段到由该层的top blob，任何层都可以作为一个loss，对于带loss后缀的层来说，其对于该层的第一个top blob含有一个隐式的loss_weight:1，而其它层对于所有的top blob有一个隐式的loss_weight:0。

同时，对于任何可以反传的层，可允许给予一个非0的loss_weight，那么，在caffe中最终的损失函数可以通过对整个网络中所有权值损失进行求和计算获得。

3、调优Solver

Solver通过协调Net的前向推断计算和反向梯度计算来对参数进行更新，从而达到减小loss的目的。因此，caffe模型的学习被分为两个部分：一是由Solver进行优化、更新参数；二是由Net计算出loss和gradient。

关于前传/反传、损失函数以及调优Solver将会在接下来结合代码进行深入分析。