Cross-entropy Cost Function for Classification Problem

在Machine Learning的Regression Problem中，常用Quadratic Function来做Cost Function，用以表征Hypothesis与Y之间的差距。而通过Gradient Descent来不断调整参数，从而缩小这个Gap从而训练我们的算法。

而在Neural Network的Classification Problem中，如果依然使用Quadratic Function，则会出现学习速率过慢的问题，这时我们就需要选用Cross-entropy来做Cost Function。首先，在NN的Backpropagation过程中，我们可以知道Cost对于最后一层的weight矩阵的梯度为：

其中C对激励输入z^L的梯度记为：

而在使用Quadratic作为Cost的情况下：

可以看出，该梯度是由Hypothesis与Y的差值以及σ'(z)决定。此时存在一个问题：在训练的最初阶段，我们的参数的随机的，这意味着初期Z值有可能很大，也有可能很小，假如y=0，但由于z值很大导致最终的输出a^L=1，此时预测结果与期望值正好相反，但此时σ的梯度却近似于0，导致学习速率很慢。我们对照下面的两张图即可有所体会：

如果初始值选择的不好，就会是这个情况。在最初训练时，cost下降很慢，当过了某个临界点，学习加快：

然而，我们的期望是，结果差的越多，理应学习速率越快。就像开车出门，如果走了目的地相反的方向，那就要调头呀！而σ'(z)作为斜率，在z很大或很小的地方斜率几乎为零，导致学习速率很慢。所以我们引入一个新的Cost Function：Cross-entropy，其形式如下：

首先，如果我们计算输出cost对第L层第j结点权重ω的偏导（梯度）：

在运算过程中g'(z)被消掉了，也就是说，无论g'(z)是什么情况，不影响我们的梯度，而决定性因素，仅仅是真实输出值与期望值的差。此外，Cost Function变更了，那么在最后一层的δ变更为：

但在Deep Learning中，其实仅仅一个Cross-entropy是无法解决全部的梯度问题的，在另一篇文章中，我也介绍到了Gradient Vanishing的问题。

Cross-entropy Cost Function for Classification Problem的更多相关文章

关于交叉熵损失函数Cross Entropy Loss
1.说在前面最近在学习object detection的论文,又遇到交叉熵.高斯混合模型等之类的知识,发现自己没有搞明白这些概念,也从来没有认真总结归纳过,所以觉得自己应该沉下心,对以前的知识做一个 ...
一篇博客：分类模型的 Loss 为什么使用 cross entropy 而不是 classification error 或 squared error
https://zhuanlan.zhihu.com/p/26268559 分类问题的目标变量是离散的,而回归是连续的数值. 分类问题,都用 onehot + cross entropy traini ...
machine learning(11) -- classification: advanced optimization 去求cost function最小值的方法
其它的比gradient descent快, 在某些场合得到广泛应用的求cost function的最小值的方法 when have a large machine learning problem, ...
machine learning(10) -- classification:logistic regression cost function 和使用 gradient descent to minimize cost function
logistic regression cost function(single example) 图像分布 logistic regression cost function(m examples) ...
【机器学习】代价函数（cost function）
注:代价函数(有的地方也叫损失函数,Loss Function)在机器学习中的每一种算法中都很重要,因为训练模型的过程就是优化代价函数的过程,代价函数对每个参数的偏导数就是梯度下降中提到的梯度,防止过 ...
Model Representation and Cost Function
Model Representation To establish notation for future use, we’ll use x(i) to denote the “input” vari ...
【机器学习基础】交叉熵（cross entropy）损失函数是凸函数吗？
之所以会有这个问题,是因为在学习 logistic regression 时,<统计机器学习>一书说它的负对数似然函数是凸函数,而 logistic regression 的负对数似然函数 ...
[Machine Learning] 浅谈LR算法的Cost Function
了解LR的同学们都知道,LR采用了最小化交叉熵或者最大化似然估计函数来作为Cost Function,那有个很有意思的问题来了,为什么我们不用更加简单熟悉的最小化平方误差函数(MSE)呢? 我个人理解 ...
logistic回归具体解释(二）：损失函数（cost function）具体解释
有监督学习机器学习分为有监督学习,无监督学习,半监督学习.强化学习.对于逻辑回归来说,就是一种典型的有监督学习. 既然是有监督学习,训练集自然能够用例如以下方式表述: {(x1,y1),(x2,y2 ...

随机推荐

[Codeforces 1201D]Treasure Hunting(DP)
[Codeforces 1201D]Treasure Hunting(DP) 题面有一个n*m的方格,方格上有k个宝藏,一个人从(1,1)出发,可以向左或者向右走,但不能向下走.给出q个列,在这些列 ...
[C] Re-execute itself from elf file.
Re-execute itself from elf file. #define _GNU_SOURCE #include <sched.h> #include <stdio.h&g ...
在eclipse上配置多个jdk
在实际生产中,可能会遇到这样的问题:在eclipse中存在多个项目时,可能不同的项目需要不同的jdk版本.这时,我们就可以给eclipse配置多个jdk进行切换. 注:貌似只有较新版eclipse才能 ...
java 快速开发平台有代码生成器 springmvc SSM后台框架源码
. 权限管理:点开二级菜单进入三级菜单显示角色(基础权限)和按钮权限角色(基础权限): 分角色组和角色,独立分配菜单权限和增删改查权限. 按钮权限: 给角色分配按钮权限.2 ...
java 类加载及实例化的调用顺序
1.没有继承的情况单独一个类的场景下,初始化顺序为依次为静态变量和静态代码块(看两者的书写顺序),继承的基类的构造函数,成员变量,被调用的构造函数. 代码呈现: public class Test ...
thinkphp获取目录的方法
1.获取根目录 http://localhost/ 下面两种方法效果一样 $_SERVER['REQUEST_SCHEME']."://".$_SERVER['HTTP_HOST' ...
django之创建子应用
一:子应用 Django的视图编写是放在子应用中的.类似于flask中的视图. 二:创建子应用例如:在刚才的dj_study项目中,创建一个名字为user的子应用(目录):注意是第一级的dj_stu ...
6.dockerfile
一.概述自制镜像的目的不是为了解决配置更新的问题,而是为了定制化应用服务. 镜像的制作:基于容器制作:dockerfile dockerfile的格式:注释信息+指令(约定俗成使用大写)及其参数 d ...
rocketmq启动broker内存占用过大的问题
解决方法: 修改broker启动脚本runbroker.sh里面的jvm参数 JAVA_OPT="${JAVA_OPT} -server -Xms8g -Xmx8g -Xmn4g" ...
tuple写法
name = ("wen") 类型为strname = ("wen",) 类型为tuple

Cross-entropy Cost Function for Classification Problem

Cross-entropy Cost Function for Classification Problem的更多相关文章

随机推荐

热门专题