深度学习笔记目标函数的总结与整理

　　目标函数，或称损失函数，是网络中的性能函数，也是编译一个模型必须的两个参数之一。由于损失函数种类众多，下面以keras官网手册的为例。

在官方keras.io里面，有如下资料：

mean_squared_error或mse
mean_absolute_error或mae
mean_absolute_percentage_error或mape
mean_squared_logarithmic_error或msle
squared_hinge
hinge
binary_crossentropy（亦称作对数损失，logloss）
categorical_crossentropy：亦称作多类的对数损失，注意使用该目标函数时，需要将标签转化为形如(nb_samples, nb_classes)的二值序列
sparse_categorical_crossentrop：如上，但接受稀疏标签。注意，使用该函数时仍然需要你的标签与输出值的维度相同，你可能需要在标签数据上增加一个维度：np.expand_dims(y,-1)
kullback_leibler_divergence:从预测值概率分布Q到真值概率分布P的信息增益,用以度量两个分布的差异.
cosine_proximity：即预测值与真实标签的余弦距离平均值的相反数

mean_squared_error

　　顾名思义，意为均方误差，也称标准差，缩写为MSE，可以反映一个数据集的离散程度。

　　标准误差定义为各测量值误差的平方和的平均值的平方根，故又称为均方误差。

　　公式：

　　公式意义：可以理解为一个从n维空间的一个点到一条直线的距离的函数。（此为在图形上的理解，关键看个人怎么理解了）

mean_absolute_error

　　译为平均绝对误差，缩写MAE。

　　平均绝对误差是所有单个观测值与算术平均值的偏差的绝对值的平均。

　　公式：（f_i是预测值，y_i是实际值,绝对误差)

mean_absolute_percentage_error

　　译为平均绝对百分比误差，缩写MAPE。

　　公式：（A_t表示实际值，F_t表示预测值）

mean_squared_logarithmic_error

　　译为均方对数误差,缩写MSLE。

　　公式：（n是整个数据集的观测值，p_i为预测值，a_i为真实值）

squared_hinge

　　公式为max(0,1-y_true*y_pred)^2.mean(axis=-1)，取1减去预测值与实际值的乘积的结果与0比相对大的值的平方的累加均值。

hinge

　　公式为为max(0,1-y_true*y_pred).mean(axis=-1)，取1减去预测值与实际值的乘积的结果与0比相对大的值的累加均值。

　　Hinge Loss 最常用在 SVM 中的最大化间隔分类中，

　　对可能的输出 t = ±1 和分类器分数 y，预测值 y 的 hinge loss 定义如下：

　　L(y) = max(0,1-t*y)

　　看到 y 应当是分类器决策函数的“原始”输出，而不是最终的类标。例如，在线性的 SVM 中

　　y = w*x+b

　　可以看出当 t 和 y 有相同的符号时（意味着 y 预测出正确的分类）

　　|y|>=1

　　此时的 hinge loss

　　L(y) = 0

　　但是如果它们的符号相反

　　L(y)则会根据 y 线性增加 one-sided error。（译自wiki）

binary_crossentropy

　　即对数损失函数，log loss，与sigmoid相对应的损失函数。

　　公式：L(Y,P(Y|X)) = -logP(Y|X)

　　该函数主要用来做极大似然估计的，这样做会方便计算。因为极大似然估计用来求导会非常的麻烦，一般是求对数然后求导再求极值点。

　　损失函数一般是每条数据的损失之和，恰好取了对数，就可以把每个损失相加起来。负号的意思是极大似然估计对应最小损失。

categorical_crossentropy

　　多分类的对数损失函数，与softmax分类器相对应的损失函数，理同上。

　　tip：此损失函数与上一类同属对数损失函数，sigmoid和softmax的区别主要是，sigmoid用于二分类，softmax用于多分类。

一种解释:
softmax公式:

logistic regression的目标函数是根据最大似然来做的.也就是假设x属于类y,预测出概率为oy,那么需要最大化oy.

softmax_loss的计算包含2步：

（1）计算softmax归一化概率

（2）计算损失

这里以batchsize=1的2分类为例：
设最后一层的输出为[1.2 0.8],减去最大值后为[0 -0.4]，
然后计算归一化概率得到[0.5987 0.4013]，
假如该图片的label为1，则Loss=-log0.4013=0.9130

可选参数

（1） ignore_label

int型变量，默认为空。
如果指定值，则label等于ignore_label的样本将不参与Loss计算，并且反向传播时梯度直接置0.

（2） normalize

bool型变量，即Loss会除以参与计算的样本总数；否则Loss等于直接求和

（3） normalization
enum型变量，默认为VALID，具体代表情况如下面的代码。

  enum NormalizationMode {

    // Divide by the number of examples in the batch times spatial dimensions.

    // Outputs that receive the ignore label will NOT be ignored in computing the normalization factor.

    FULL = 0;

    // Divide by the total number of output locations that do not take the

    // ignore_label.  If ignore_label is not set, this behaves like FULL.

    VALID = 1;

    // Divide by the batch size.

    BATCH_SIZE = 2;

    //

    NONE = 3;

  }

归一化case的判断：

（1）如果未设置normalization，但是设置了normalize。
则有normalize==1 -> 归一化方式为VALID
normalize==0 -> 归一化方式为BATCH_SIZE

（2）一旦设置normalization，归一化方式则由normalization决定，不再考虑normalize。

使用方法



layer {

  name: "loss"

  type: "SoftmaxWithLoss"

  bottom: "fc1"

  bottom: "label"

  top: "loss"

  top: "prob"

  loss_param{

    ignore_label：0

    normalize: 1

    normalization: FULL

  }

}

扩展使用

（1）如上面的使用方法中所示，softmax_loss可以有2个输出，第二个输出为归一化后的softmax概率

（2）最常见的情况是，一个样本对应一个标量label，但softmax_loss支持更高维度的label。
当bottom[0]的输入维度为N*C*H*W时,
其中N为一个batch中的样本数量，C为channel通常等于分类数，H*W为feature_map的大小通常它们等于1.

此时我们的一个样本对应的label不再是一个标量了，而应该是一个长度为H*W的矢量，里面的数值范围为0——C-1之间的整数。
至于之后的Loss计算，则采用相同的处理。

在kaggle比赛中，经常需要提交log loss，对数损失是经常用到的一个评价指标。其定义为给定概率分类器预测的真实

标签的负对数似然率。

每一个样本的对数损失就是在给定真实样本标签的条件下，分类器的负对数似然函数：

-log P(yt|yp) = -(yt log(yp) + (1 - yt) log(1 - yp))

当某个样本的真实标签y=1时，loss=-log（p），分类器的预测概率值为p=pr（y=1）的概率如果越大，越接近1，则损失越小；如果p=pr（y=1）的概率值越小，则分类损失越大。

在提交结果中，使用官方提供的测试集是没有标签的，提交基于测试集模型的预测值，属于每一类预测值的概率值，官方评价指标使用log loss，会返回一个负对数似然值作为评价的目标值。

举个例子：

两个类别，spam，ham是真实标签值，四个预测值，预测属于正确类别的概率值基本正确，所以返回的对数损失是0.21......，值比较小，说明预测还是可以的。

sparse_categorical_crossentrop

　　在上面的多分类的对数损失函数的基础上，增加了稀疏性（即数据中多包含一定0数据的数据集），如目录所说，需要对数据标签添加一个维度np.expand_dims(y,-1)。

kullback_leibler_divergence

　　（译自WIKI）

　　对于离散随机变量，其概率分布P 和 Q的KL散度可按下式定义为

　　即按概率P求得的P和Q的对数差的平均值。KL散度仅当概率P和Q各自总和均为1，且对于任何i皆满足

　　Q(i)>0及P(i)>0时，才有定义。式中出现0Ln0的情况，其值按0处理。

　　对于连续随机变量，其概率分布P和Q可按积分方式定义为

　　其中p和q分别表示分布P和Q的密度。

　　更一般的，若P和Q为集合X的概率测度，且Q关于P绝对连续，则从P到Q的KL散度定义为

　　其中，假定右侧的表达形式存在，则为Q关于P的R–N导数。

　　相应的，若P关于Q绝对连续，则

　　即为P关于Q的相对熵，用以度量两个分布的差异。

cosine_proximity

　　此方法用余弦来判断两个向量的相似性。

　　设向量 A = (A1,A2,...,An)，B = (B1,B2,...,Bn)，则有

　　余弦值的范围在[-1,1]之间，值越趋近于1，代表两个向量的方向越趋近于0，他们的方向更加一致。相应的相似度也越高。

keras model.compile(loss='目标函数 ', optimizer='adam', metrics=['accuracy'])的更多相关文章

keras中的loss、optimizer、metrics
用keras搭好模型架构之后的下一步,就是执行编译操作.在编译时,经常需要指定三个参数 loss optimizer metrics 这三个参数有两类选择: 使用字符串使用标识符,如keras.lo ...
Deploying Keras model on Tensorflow Serving--
keras训练了个二分类的模型.需求是把keras模型跑到 tensorflow serving上 (TensorFlow Serving 系统用于在生产环境中运行模型) keras模型转 tenso ...
keras模块学习之-目标函数（objectives）笔记
本笔记由博客园-圆柱模板博主整理笔记发布,转载需注明,谢谢合作! 目标函数又称损失函数(loss),目的是计算神经网络的输出与样本标记的差的一种方法,如: model = Sequential() ...
Keras Model Sequential模型接口
Sequential 模型 API 在阅读这片文档前,请先阅读 Keras Sequential 模型指引. Sequential 模型方法 compile compile(optimizer, lo ...
keras Model 3 共享的层
1 入门 2 多个输入和输出 3 共享层考虑这样的一个问题:我们要判断连个tweet是否来源于同一个人. 首先我们对两个tweet进行处理,然后将处理的结构拼接在一起,之后跟一个逻辑回归,输出这两条 ...
keras Model 1 入门篇
1 入门 2 多个输入和输出 3 共享层最近在学习keras,它有一些实现好的特征提取的模型:resNet.vgg.而且是带权重的.用来做特诊提取比较方便首先要知道keras有两种定义模型的方式: ...
tensorflow 2.0 技巧 | 自定义tf.keras.Model的坑
自定义tf.keras.Model需要注意的点 model.save() subclass Model 是不能直接save的,save成.h5,但是能够save_weights,或者save_form ...
keras Model 2 多输入和输出
1 入门 2 多个输入和输出 3 共享层函数式模型有一个很好用的应用实例是:编写拥有多个输入和输出的模型.函数式模型使得在复杂网络中操作巨大的数据流变的简单. 我们实现下面这样的模型 from ke ...
Problem after converting keras model into Tensorflow pb - 将keras模型转换为Tensorflow pb后的问题
I'm using keras 2.1.* with tensorflow 1.13.* backend. I save my model during training with .h5 forma ...

随机推荐

java 基础之--反射详解
java 反射绝大部分都位于 java.lang.reflect package 中:常用的类就是: 1.class类:代表一个类 2.field类:代表类的成员变量 3.method:代表类的方法 ...
设a、b、c均是0到9之间的数字，abc、bcc是两个三位数，且有：abc+bcc=532。求满足条件的所有a、b、c的值。
题目描述设a.b.c均是0到9之间的数字,abc.bcc是两个三位数,且有:abc+bcc=532.求满足条件的所有a.b.c的值. 输入描述: 题目没有任何输入. 输出描述: 请输出所有满足题目条 ...
进程 day36
python之路——进程阅读目录理论知识操作系统背景知识什么是进程进程调度进程的并发与并行同步\异步\阻塞\非阻塞进程的创建与结束在python程序中的进程操作 multipro ...
linux下的压缩命令
linux zip命令 zip -r myfile.zip ./* 将当前目录下的所有文件和文件夹全部压缩成myfile.zip文件,-r表示递归压缩子目录下所有文件. 2.unzip unzip - ...
c#dev操作读取excel方法
一:使用spreadsheetControl1 方法 1:打开excel; private void barButtonItem1_ItemClick(object sender, DevExpres ...
hdu 1495 (搜索) 非常可乐
http://acm.hdu.edu.cn/showproblem.php?pid=1495 搜索模拟出每此倒得情况就好,详情见代码\ (好困啊!!!!1) #include<cstdio> ...
全基因组测序 Whole Genome Sequencing
全基因组测序 Whole Genome Sequencing 全基因组测序(Whole Genome Sequencing,WGS)是利用高通量测序平台对一种生物的基因组中的全部基因进行测序,测定其 ...
P1083龙舟比赛
题目如下: 现在正在举行龙舟比赛,我们现在获得了最后冲刺时的俯视图像,现在你要输出各条龙舟的名次. 这张图像由r行c列的字符组成,每行的最左边的字符表示起点,所以字符为'S',最右边的字符为'F'.并 ...
boost timer代码学习笔记
socket连接中需要判断超时所以这几天看了看boost中计时器的文档和示例一共有五个例子从简单的同步等待到异步调用超时处理先看第一个例子 // timer1.cpp: 定义控制台应用程序的入 ...
jrebel
jrebel 编辑 JRebel是一套JavaEE开发工具.JRebel允许开发团队在有限的时间内完成更多的任务修正更多的问题,发布更高质量的软件产品. JRebel是收费软件,用户可以在JReb ...

keras model.compile(loss='目标函数 ', optimizer='adam', metrics=['accuracy'])