最大熵与最大似然，以及KL距离。

DNN中最常使用的离散数值优化目标，莫过于交差熵。两个分布p，q的交差熵，与KL距离实际上是同一回事。

$-\sum plog(q)=D_{KL}(p\shortparallel q)-\sum plog(p)$

交差熵实际上就是KL距离减去熵。

监督学习时，p是目标的分布，无法被改变，能通过训练改变的只有拟合出的分布q，所以loss需要最小化交差熵的时候，实际上就是在最小化KL距离。

熟悉KL距离定义的话，就知道交差熵实际上是要求p与q分布尽量接近，这样就能使用相近的bit数来编码信息。

前面的文章已经论证了分类问题中，最大熵必然导致玻尔兹曼分布。

这里补充一点，关于最大熵与最大似然在分类问题中的等价证明。

假设N个样本在K个分类下，当N足够大，使n_k遵循真实概率分布p_k，既$n_{k}/N\approx p_{k}$，且N个样本相互独立。

对于整个系统而言，最大似然里的联合概率$p(x_{1},x_{2}\text{......}x_{N})=\prod\limits _{i=1}^{N}p(x_{i})=\prod\limits _{k=1}^{K}p(x=k)^{n_{k}}$

那么$log(p)=\sum\limits _{k=1}^{K}n_{k}log(p(k))=N\sum\limits _{k=1}^{K}p_{k}log(p_{k})=-NH$

等等，最大似然与熵虽然关联了起来，但是有个负号在前面，最大似然意味着平均每个样本的熵被最小化？这明显是不符合常理的。

问题的根本其实在于，最大熵与最大似然其实是作用在两个不同分布上的操作。

先说最大似然，这个操作是在训练模型的时候，更新权重使用梯度下降时，将预测值y_hat的联合概率进行最大似然，既最大化$log(p(\hat{\boldsymbol{y}}))$，所以需要$\frac{\partial log(p(\hat{\boldsymbol{y}}))}{\partial w}=0$

然后最大熵的操作，是针对真实分布p(y)，而非预测目标p(y_hat)的，既最大化$H(p(\boldsymbol{y}))$。因为更新权重无法影响到真实分布p(y)，所以$\frac{\partial H(Y)}{\partial w}$这类的操作是无意义的。

最大熵的作用，更倾向于描述一个真实分布的样本，其内在遵循的一个客观规律，既热力学第二定律。

那么，上面分类模型里的关联似然与熵负号，又代表或暗示了什么呢？

我们知道，随着训练的进行，预测分布Y_hat与Y的交互信息是要逐渐增加的，而交互信息与熵又存在这样的关系

$I(\hat{Y};Y)=H(Y)-H(Y\mid\hat{Y})$

减小的不是$H(Y)$，因为无论怎么训练权重参数，它都不受影响。

真正减少的是$H(Y\mid\hat{Y})$，通过不断减少$H(Y\mid\hat{Y})$才能使预测值更接近真实值。

在给定预测值的计算方法$p(\hat{y}=k)=n_{k}/N$之后，我们已知先验分布的p_k后，未知的真实分布Y的混乱程度实际上是降低了。这也很符合直观的理解，我们已知的信息越多，能预测出的分布与真实分布就越接近，真实分布Y的混乱度既熵也就越低，两个分布的KL距离也就越近。

所以，在我们训练机器学习模型，使似然函数逐渐趋向最大化时，给定训练获得的知识$\hat{Y}$之后描述真实分布的熵$H(Y\mid\hat{Y})$就减小了。

$log(p)=-NH(Y\mid\hat{Y})$

最大熵与最大似然，以及KL距离。的更多相关文章

（转载）KL距离，Kullback-Leibler Divergence
转自:KL距离,Kullback-Leibler Divergence KL距离,是Kullback-Leibler差异(Kullback-Leibler Divergence)的简称,也叫做相对 ...
[NLP自然语言处理]计算熵和KL距离，java实现汉字和英文单词的识别，UTF8变长字符读取
算法任务: 1. 给定一个文件,统计这个文件中所有字符的相对频率(相对频率就是这些字符出现的概率——该字符出现次数除以字符总个数,并计算该文件的熵). 2. 给定另外一个文件,按上述同样的方法计算字符 ...
KL距离，Kullback-Leibler Divergence
http://www.cnblogs.com/ywl925/p/3554502.html http://www.cnblogs.com/hxsyl/p/4910218.html http://blog ...
各种形式的熵函数，KL距离
自信息量I(x)=-log(p(x)),其他依次类推. 离散变量x的熵H(x)=E(I(x))=-$\sum\limits_{x}{p(x)lnp(x)}$ 连续变量x的微分熵H(x)=E(I(x)) ...
【转载】 KL距离（相对熵）
原文地址: https://www.cnblogs.com/nlpowen/p/3620470.html ----------------------------------------------- ...
KL距离（相对熵）
KL距离,是Kullback-Leibler差异(Kullback-Leibler Divergence)的简称,也叫做相对熵(Relative Entropy).它衡量的是相同事件空间里的两个概率分 ...
深度学习（六十六）生成模型、最大化似然、KL散度
KL散度、JS散度、Wasserstein距离
1. KL散度 KL散度又称为相对熵,信息散度,信息增益.KL散度是是两个概率分布 $P$ 和 $Q$ 之间差别的非对称性的度量. KL散度是用来度量使用基于 $Q$ 的编码来编码来自 $P$ 的 ...
PRML读书会第十章 Approximate Inference（近似推断，变分推断，KL散度，平均场， Mean Field ）
主讲人戴玮 (新浪微博: @戴玮_CASIA) Wilbur_中博(1954123) 20:02:04 我们在前面看到,概率推断的核心任务就是计算某分布下的某个函数的期望.或者计算边缘概率分布.条件 ...

随机推荐

python大法好——飞机大战完整吧
# -*- coding:utf-8 -*-import pygamefrom pygame.locals import *import time '''说明1.按下b键,让玩家飞机爆炸 2.爆炸效果 ...
获取object的值
class Program { static void Main(string[] args) { var data = Unite(); var name = data.GetType().GetP ...
Java并发编程随笔
死锁:两个线程互相等待对方释放锁才可以继续运行. 避免死锁的常见方法: 1.避免一个线程同时获取多个锁 2.避免一个线程在锁内同时占用多个资源,尽量保证一个锁只占用一个资源 3.尝试使用定时锁,使用l ...
Linux命令:source
语法 source filename 说明 . 的同义词
本地jar包添加至Maven仓库
Maven命令将本地的jar包方放到maven仓库中 //自定义本地的jar包在pom文件的参数 <dependency> <groupId>com.eee</group ...
echars 图表提示框自定义显示
一 . 显示单条数据时在tooltip里调用formatter函数给自定义提示框内数据. 效果图显示二 . 当显示多条数据时.为保证和原来的效果相同需要自己实现点的效果.如果不实现,提示框则不限点的 ...
Java Script 简介
Java Script 简介 JavaScript 是世界上最流行的编程语言. 这门语言可用于 HTML 和 web,更可广泛用于服务器.PC.笔记本电脑.平板电脑和智能手机等设备.JavaScrip ...
html页面通过http访问mysql数据库中的内容，实现用户登录的功能
需求: 通过html编写用户登录页面,页面内容包括用户名.密码和登录按钮,点击登录后访问login.php文件,使用按钮默认的submit提交用户名和密码,在login.php中访问mysql数据库, ...
MyEclipse10.0的破解过程详细及图解
MyEclipse10.0的破解过程详细图解准备阶段 : 1. 破解软件(网上有下载) 2. JDK软件(免费软件) 开始破解: 1. 关闭MyEclipse 10.0 2. 安装 JDK 然后解压 ...
项目（八） Jenkins持续集成与构建
Jenkins环境搭建由于Jenkins是依赖于java的,所以先介绍java环境的搭建 1)使用官方的二进制包解压安装,官方二进制包的下载地址:http://www.oracle.com/tech ...

最大熵与最大似然，以及KL距离。

最大熵与最大似然，以及KL距离。的更多相关文章

随机推荐

热门专题