1交叉熵损失函数的由来1.1关于熵,交叉熵,相对熵(KL散度) 熵:香农信息量的期望.变量的不确定性越大,熵也就越大,把它搞清楚所需要的信息量也就越大.其计算公式如下: 其是一个期望的计算,也是记录随机事件结果的平均编码长度(关于编码:一个事件结果的出现概率越低,对其编码的bit长度就越长.即无法压缩的表达,代表了真正的信息量.) 熵与交叉熵之间的联系: 假设有两个分布p,q.其中p是真实概率分布,q是你以为(估计)的概率分布(可能不一致):你以 q 去编码,编码方案 log(1/qi)可能不是…