回到随机变量传输问题,假设传输中我们不知道具体 分布情况(unknown),我们用一个已知的分布 ,来模拟它,那么在这种情况下如果我们利用 尽可能高效的编码,那么我们平均需要多少额外的信息量来描述x呢.这称为相对熵,或者kl divergence. 利用凸函数的不等式性质(也利用了离散求和推广到连续积分)可以证明 因此KL表征了两个分布之间的关系,a measure of dissimilariy of p and q表示两个分布不相同的程度 来自 <http://www.cnblogs.com…