BCE和CE交叉熵损失函数的区别

首先需要说明的是PyTorch里面的BCELoss和CrossEntropyLoss都是交叉熵，数学本质上是没有区别的，区别在于应用中的细节。

BCE适用于0/1二分类，计算公式就是 “ -ylog(y^hat) - (1-y)log(1-y^hat) ”，其中y为GT，y_hat为预测值。这样，当gt为0的时候，公式前半部分为0，y^hat需要尽可能为0才能使后半部分数值更小；当gt为1时，后半部分为0，y^hat需要尽可能为1才能使前半部分的值更小，这样就达到了让y^hat尽量靠近gt的预期效果。当然，显然这要求输入必须在0-1之间，所以为了让网络的输出确保在0-1之间，我们一般都会加一个Sigmoid，而更具体一点来说，使用BCELoss的话只需要网络输出一个节点即可，不像CE Loss那样，往往是有n_class个类就需要网络最终输出n_class个节点。

而CE因为需要用在多分类上，所以计算公式就变成了sum(-ylog(y^hat))。可能有些同学很敏锐的发现了，这个函数实际上只是在对相应gt=1的那个节点的值做约束，希望这一点的输出能尽量为1；而其他原本gt为0的节点因为y=0，在计算到sum中的时候无论其相应输出节点是多少都没有关系，那这是不是意味着CE的公式还有漏洞呢？话虽这么说，但其实是因为我们忘记了CE之前还有Softmax这个函数，这个函数会让输入的n_class个节点中大的更大，小的更小，并且可以确保最终所有节点的输出的总和为1，这样一来只要对应gt=1的那个节点输出足够靠近1，其他的节点自然输出就会趋近于0了。

上面的两个例子都是在分类任务中说的，而在分割任务中，BCE和CE的另一个区别就可以说是，BCE只需要输出一个通道，而CE需要输出n_class个通道。

BCE和CE交叉熵损失函数的区别的更多相关文章

【转载】深度学习中softmax交叉熵损失函数的理解
深度学习中softmax交叉熵损失函数的理解 2018-08-11 23:49:43 lilong117194 阅读数 5198更多分类专栏: Deep learning 版权声明:本文为博主原 ...
深度学习原理与框架-神经网络结构与原理 1.得分函数 2.SVM损失函数 3.正则化惩罚项 4.softmax交叉熵损失函数 5. 最优化问题(前向传播) 6.batch_size(批量更新权重参数) 7.反向传播
神经网络由各个部分组成 1.得分函数:在进行输出时,对于每一个类别都会输入一个得分值,使用这些得分值可以用来构造出每一个类别的概率值,也可以使用softmax构造类别的概率值,从而构造出loss值, ...
[ch03-02] 交叉熵损失函数
系列博客,原文在笔者所维护的github上:https://aka.ms/beginnerAI, 点击star加星不要吝啬,星越多笔者越努力. 3.2 交叉熵损失函数交叉熵(Cross Entrop ...
关于交叉熵损失函数Cross Entropy Loss
1.说在前面最近在学习object detection的论文,又遇到交叉熵.高斯混合模型等之类的知识,发现自己没有搞明白这些概念,也从来没有认真总结归纳过,所以觉得自己应该沉下心,对以前的知识做一个 ...
softmax交叉熵损失函数求导
来源:https://www.jianshu.com/p/c02a1fbffad6 简单易懂的softmax交叉熵损失函数求导来写一个softmax求导的推导过程,不仅可以给自己理清思路,还可以造福 ...
吴裕雄--天生自然 pythonTensorFlow自然语言处理：交叉熵损失函数
import tensorflow as tf # 1. sparse_softmax_cross_entropy_with_logits样例. # 假设词汇表的大小为3, 语料包含两个单词" ...
简单易懂的softmax交叉熵损失函数求导
参考: https://blog.csdn.net/qian99/article/details/78046329
交叉熵损失函数，以及pytorch CrossEntropyLoss的理解
实际运用例子: https://zhuanlan.zhihu.com/p/35709485 pytorch CrossEntropyLoss,参考博客如下: https://mathpretty.co ...
【联系】二项分布的对数似然函数与交叉熵（cross entropy）损失函数
1. 二项分布二项分布也叫 0-1 分布,如随机变量 x 服从二项分布,关于参数 μ(0≤μ≤1),其值取 1 和取 0 的概率如下: {p(x=1|μ)=μp(x=0|μ)=1−μ 则在 x 上的 ...

随机推荐

学习 | iscroll之上拉加载下拉刷新
引入文件顺序 1.zepto 2.iscroll.js 3.scroll-probe.js 链接完整代码:https://github.com/dirkhe1051931999/writeBlog/ ...
Axios源码深度剖析
Axios源码深度剖析 - XHR篇 axios 是一个基于 Promise 的http请求库,可以用在浏览器和node.js中,目前在github上有 42K 的star数分析axios - 目录 ...
elasticsearch 索引清理脚本及常用命令
elastic索引日志清理不及时,很容易产生磁盘紧张,官网给出curl -k -XDELETE可以清理不需要的索引日志. 清理脚本 #!/bin/bash #Author: 648403020@qq. ...
Linux环境变量总结转
转自https://www.jianshu.com/p/ac2bc0ad3d74 Linux是一个多用户多任务的操作系统,可以在Linux中为不同的用户设置不同的运行环境,具体做法是设置不同用户的环境 ...
hystrix(8) 插件
上一节讲到HystrixCommand的执行流程. Hystrix内部将一些模块实现成了插件,并且提供了用户提供自己的实现,通过配置来替换插件.Hystrix提供了5个插件,分别为并发相关插件(Hys ...
hystrix总结之多返回值命令
继承HystrixCommand实现run方法的命令只能返回单一值,Hystrix也提供了方式可以让我返回一个Observable结果,然后持续监听运行结果. 继承HystrixObservableC ...
8.Kafka offset机制
kafka面试总结
本文为复习期间面试总结从以下方面对kafka面试进行总结:基本原理架构/项目实践/生产者/消费者/协调者/存储层/控制器基本原理架构简单讲下什么是kafka[一句话概括/架构图] 消息队列选型 ...
结合 Shell 对 Koa 应用运行环境检查
在开发环境中,启动一个koa 应用服务,通常还需要同时启动数据库.比如.Mongodb.mysql 等如果一直开着数据库服务,在不使用的话,电脑会占一定的性能.然而如果每次手动去启动服务,效率又不高 ...
Python-获取等差数列
获取等差数列思路 1. 通过range步长 2. 通过切片步长 # 通过 range series = [i for i in range(1, 101, 2)] print(series) # 通过 ...

BCE和CE交叉熵损失函数的区别

BCE和CE交叉熵损失函数的区别的更多相关文章

随机推荐

热门专题