信息熵，交叉熵与KL散度

一、信息熵

若一个离散随机变量 $X$ 的可能取值为 $X = \{ x_{1}, x_{2},...,x_{n}\}$，且对应的概率为：

\[p(x_{i}) = p(X=x_{i})
\]

那么随机变量 $X$ 的熵定义为：

\[H(X) = -\sum_{i=1}^{n}p(x_{i})logp(x_{i})
\]

规定当 $p(x_{i})=0$ 时，$H(X)=0$。

通过公式可以看出，若随机变量 $X$ 的取值等概率分布，即 $p(x_{i} = p(x_{j}), i \neq j$ 时，$H(X)$ 最大。

直观理解：信息熵表达的时随机变量 $X$ 所含的信息量，当 $X$ 中所有取值都等概率时，包含的信息量就越多，就需要用更多的信息来描述它。如果知道了 $X$ 中取哪个值概率最大，那么描述它所需要的信息就越少，$H(X)$ 就越小。换句话说，信息熵表明了信息的无序状态。

二、交叉熵

交叉熵定义为用模拟分布 $q$ 来编码真实分布 $p$ 所需要的平均编码长度比特个数：

\[H(p,q) = \sum_{i=1}^{n}p_{i}log\dfrac{1}{q_{i}} = -\sum_{i=1}^{n}p_{i}q_{i}
\]

拿一个三分类问题举例，加入标签通过 one-hot 编码后的目标为 $[1,0,0]$，那么当预测完全准确时，模拟分布 $q$ 的熵为：

\[H(q) = -\sum_{i=1}^{n}q_{i}log(q_{i}) = -(1 \times log 1 + 0 \times log 0 + 0 \times log(0)) = 0
\]

因此，在使用交叉熵作为损失函数执行分类任务时，通常使目标函数趋近于0。加入模型预测出来的结果为：$p = [0.7, 0.2, 0.1]$，那么 $p, q$ 的交叉熵为：

\[H(p,q) = -\sum_{i=1}^{n}p_{i}log(q_{i}) = -(1 \times log (0.7) + 0 \times log (0.2) + 0 \times log(0.1)) = -log(0.7)
\]

为什么在分类任务中多用交叉熵而不是MSE作为损失函数？我们以二分类问题为例来解释这个问题。假设训练数据集为：$T = \{ (x_{1},y_{1}),(x_{2},y_{2}),...,(x_{n},y_{n})\}$，其中 $y_{i} \in \{0,1\}$。网络的输出为：$z = w^{T}x$，标签为 $p = \{1,0\}$。于是最后对网络所预测的概率值为：$q = \sigma(z)$，其中 $\sigma()$ 代表 sigmoid 激活函数：

\[\sigma(z) = \dfrac{1}{1+e^{-z}}\quad\sigma'(z) = \sigma(z)(1-\sigma(z))
\]

若使用 MSE 作为损失函数，则：

\[L = \dfrac{1}{2}||q-p||^{2} \\
\dfrac{\partial L}{\partial w} = \dfrac{\partial L}{\partial q} \times \dfrac{\partial q}{\partial z} \times \dfrac{\partial z}{\partial w} = (q-p)\sigma'(z)x = (q-p)\sigma(z)(1-\sigma(z))x
\]

而使用交叉熵作为损失函数，则：

\[L = -\sum_{i=1}^{n}p_{i}ln(q_{i}) = -(pln(q)+(1-p)ln(1-q))\\
\dfrac{\partial L}{\partial w} = \dfrac{\partial L}{\partial q} \times \dfrac{\partial q}{\partial z} \times \dfrac{\partial z}{\partial w} = (-\dfrac{p}{q}+\dfrac{1-p}{1-q})\sigma'(z)x = (q-p)x
\]

对比之下发现，由于sigmoid 函数在输出接近0和1时，梯度很小，而使用 MSE 做损失函数时模型参数w会更新的比较慢，因此分类问题多采用交叉熵作为损失函数。

个人认为，使用交叉熵而不是用MSE的另一个原因在于，交叉熵损失函数的理想分类结果只与正确样本有关，而MSE损失函数与正误样本都有关系。

三、相对熵（$KL$散度）

相对熵用来表示两个概率分布的差异，它表示2个函数或概率分布的差异性：差异越大则相对熵越大，差异越小则相对熵越小，特别地，若2者相同则熵为0。公式表示如下：

\[D_{KL}(p||q) = -\sum_{i=1}^{n}p(x_{i})log(\dfrac{p(x_{i})}{q(x_{i}))} = H(p,q)-H(p)
\]

于是，相对熵=交叉熵-信息熵。而在有监督的机器学习和深度学习中，往往已经有了真实的样本(随机变量)和标签(label)，因此可以理解为实际的概率分布 $p$ 已知，而训练所得到的分布为 $q$，那么信息熵 $H_{p}$ 相当于常量，所以可以直接用交叉熵 $H(p,q)$ 来衡量两个独立概率分布的差异。