交叉熵cross entropy和相对熵（kl散度）

交叉熵可在神经网络(机器学习)中作为损失函数，p表示真实标记的分布，q则为训练后的模型的预测标记分布，交叉熵损失函数可以衡量真实分布p与当前训练得到的概率分布q有多么大的差异。

相对熵（relative entropy）就是KL散度（Kullback–Leibler divergence），用于衡量两个概率分布之间的差异。

对于两个概率分布 $p(x)$ 和 $q(x)$ ，其相对熵的计算公式为：

$\tt KL\it(p\parallel q)=-\int p(x)\ln q(x) dx -(-\int p(x)\ln p(x) dx)$

注意：由于 $p(x)$ 和 $q(x)$ 在公式中的地位不是相等的，所以 $\tt KL \it(p\parallel q)\not\equiv \tt KL \it (q\parallel p)$ 。

相对熵的特点，是只有 $p(x)=q(x)$ 时，其值为0。若 $p(x)$ 和 $q(x)$ 略有差异，其值就会大于0。

相对熵公式的前半部分 $-\int p(x)\ln q(x)dx$ 就是交叉熵（cross entropy）。

若 $p(x)$ 是数据的真实概率分布， $q(x)$ 是由数据计算得到的概率分布。机器学习的目的就是希望 $q(x)$ 尽可能地逼近甚至等于 $p(x)$ ，从而使得相对熵接近最小值0。由于真实的概率分布是固定的，相对熵公式的后半部分 $(-\int p(x)\ln p(x) dx)$ 就成了一个常数。相对熵的值大于等于0(https://zhuanlan.zhihu.com/p/28249050,这里给了证明),那么相对熵达到最小值的时候，也意味着交叉熵达到了最小值。对 $q(x)$ 的优化就等效于求交叉熵的最小值。另外，对交叉熵求最小值，也等效于求最大似然估计（maximum likelihood estimation）。

注意：交叉熵是衡量分布p与分布q的相似性，以前认为交叉熵的相似性越大，交叉熵的值就应该越大。但通过上面的推到可以看出，交叉熵得到两个分布的相似性是根据相对熵来的，所以相似性越大，交叉熵的值应该越小。

交叉熵cross entropy和相对熵（kl散度）的更多相关文章

最大似然估计 (Maximum Likelihood Estimation), 交叉熵 (Cross Entropy) 与深度神经网络
最近在看深度学习的"花书" (也就是Ian Goodfellow那本了),第五章机器学习基础部分的解释很精华,对比PRML少了很多复杂的推理,比较适合闲暇的时候翻开看看.今天准备写 ...
深度学习中交叉熵和KL散度和最大似然估计之间的关系
机器学习的面试题中经常会被问到交叉熵(cross entropy)和最大似然估计(MLE)或者KL散度有什么关系,查了一些资料发现优化这3个东西其实是等价的. 熵和交叉熵提到交叉熵就需要了解下信息论 ...
【机器学习基础】熵、KL散度、交叉熵
熵(entropy).KL 散度(Kullback-Leibler (KL) divergence)和交叉熵(cross-entropy)在机器学习的很多地方会用到.比如在决策树模型使用信息增益来选择 ...
信息论相关概念：熵交叉熵 KL散度 JS散度
目录机器学习基础--信息论相关概念总结以及理解 1. 信息量(熵) 2. KL散度 3. 交叉熵 4. JS散度机器学习基础--信息论相关概念总结以及理解摘要: 熵(entropy).KL 散度 ...
KL散度相关理解以及视频推荐
以下内容基于对[中字]信息熵,交叉熵,KL散度介绍||机器学习的信息论基础这个视频的理解,请务必先看几遍这个视频. 假设一个事件可能有多种结果,每一种结果都有其发生的概率,概率总和为1,也即一个数据分 ...
熵(Entropy),交叉熵(Cross-Entropy),KL-松散度(KL Divergence)
1.介绍: 当我们开发一个分类模型的时候,我们的目标是把输入映射到预测的概率上,当我们训练模型的时候就不停地调整参数使得我们预测出来的概率和真是的概率更加接近. 这篇文章我们关注在我们的模型假设这些类 ...
[转]熵(Entropy),交叉熵(Cross-Entropy),KL-松散度(KL Divergence)
https://www.cnblogs.com/silent-stranger/p/7987708.html 1.介绍: 当我们开发一个分类模型的时候,我们的目标是把输入映射到预测的概率上,当我们训练 ...
熵、交叉熵、相对熵（KL 散度）意义及其关系
熵:H(p)=−∑xp(x)logp(x) 交叉熵:H(p,q)=−∑xp(x)logq(x) 相对熵:KL(p∥q)=−∑xp(x)logq(x)p(x) 相对熵(relative entropy) ...
[ch03-02] 交叉熵损失函数
系列博客,原文在笔者所维护的github上:https://aka.ms/beginnerAI, 点击star加星不要吝啬,星越多笔者越努力. 3.2 交叉熵损失函数交叉熵(Cross Entrop ...

随机推荐

ubuntu18.04安装opencv 3.4.1
github 地址: https://github.com/opencv/opencv 安装依赖 sudo apt-get install build-essential sudo apt--dev ...
洛谷P3004 [USACO10DEC]宝箱Treasure Chest
P3004 [USACO10DEC]宝箱Treasure Chest 题目描述 Bessie and Bonnie have found a treasure chest full of marvel ...
洛谷P2899 [USACO08JAN]手机网络Cell Phone Network
P2899 [USACO08JAN]手机网络Cell Phone Network 题目描述 Farmer John has decided to give each of his cows a cel ...
django 数据库建表流程,与表结构
目录配置数据库创建表结构多表关连的设置自创建关联表方法自建表和 ManyToManyField 联合使用配置数据库在Django项目的settings.py文件中,配置数据库连接信息: ...
B-Tree深入理解
定义: 根节点至少包括两个孩子树中每个节点最多含有m个孩子(m>=2) 除根节点和叶子节点外,其他每个节点字少有(ceil(m/2):去上线),个孩子. 所有叶子节点都位于同一高度假设每个非 ...
react-native-syan-image-picker的使用
传送门第一种方式:link 第一步:安装 1. npm install react-native-syan-image-picker --save 2. react-native link re ...
微信小程序采坑之上拉触底加载更多和下拉刷新
小程序中加载更多数据一般都是触底刷新有自带的函数: onReachBottom: function (){} 但是在使用时触发完全没有反应,后来尝试给外层加了一个高度,解决问题仔细想想也是,没有设 ...
Androidstudio坑
1.intel haxm sdkmanager显示不可选中,而且boost设置好了intervt 解决:重新关闭,打开系统,然后开启.... 2.解决不了一直报错,(自己的代码,明明已经没有问题) 有 ...
JavaScript进阶 - 第4章跟着我的节奏走(流程控制语句)
第4章跟着我的节奏走(流程控制语句) 4-1 做判断(if语句) if语句是基于条件成立才执行相应代码时使用的语句. 语法: if(条件) { 条件成立时执行代码} 注意:if小写,大写字母(IF) ...
JS高级学习历程-4
4 执行环境可以访问什么变量具体可以访问变量类型:局部变量.参数.函数.外部环境变量优先级:局部变量 > 函数 > 参数 > 外部环境变量 <!DOCTYPE html&g ...

交叉熵cross entropy和相对熵（kl散度）

交叉熵cross entropy和相对熵（kl散度）的更多相关文章

随机推荐

热门专题