信息熵为什么要定义成-Σp*log(p)？

再解释信息熵之前，需要先来说说什么是信息量。

信息量是对信息的度量，单位一般用bit。

信息论之父克劳德·艾尔伍德·香农(Claude Elwood Shannon )对信息量的定义如下：

在解释这个公式之前，先看看下面的例子。

比如一个黑箱里有2个苹果，8个橙子我们把从黑箱里取苹果、橙子看成是一个随机过程，X={x1,x2}，其中的随机变量分别表示苹果、橙子。

当我们了解到拿出来的是什么的时候，我们就接受到了信息，这个信息的信息量的大小与这个东西出现的概率有关,这里苹果是0.2，橙子是0.8。越小概率的事情发生，其产生的信息量越大，比如我了解到拿出来的是一个苹果所获得的信息量比一个橙子的信息量要大的多。

所以如果我们要寻找一个函数来定义信息，则该函数要满足如下条件：

要符合随着概率的增大而减小的形式；

函数的值不能为负数，因为信息量最小为0。

带负号的对数函数显然符合以上要求，当然，肯定有其他函数也会符合以上要求，对此，香农在《A Mathematical Theory of Communication》(通信的数学理论)这篇论文中有说明选择对数函数的原因：

大意是说：

如果集合中的消息的数量是有限的，而且每条消息被选择的可能性相等，那么这个消息数或者任意这个消息数的单调函数可以用来做为从集合选择一条消息时产生的信息量的度量。而最自然的选择是对数函数。

关于对数函数更便捷的原因，论文中给出了3点：

在实践中更有用。
对数函数可以让一些工程上非常重要的参数比如时间、带宽、继电器数量等与可能性的数量的对数成线性关系，例如，增加一个继电器会使继电器的可能状态数加倍，而如果对这一可能状态数求以2为底的对数，结果只是加 1。加倍时间，可能的消息数会近似变成原来的平方(1,2,4,8,...)，而其对数则是加倍(log2 1,log2 2,log2 4,log2 8,...)=(0,1,2,3,...)
更贴近于人类对度量的直觉。
线性比较就是人类的度量直觉。比如，人们认为，两张打孔卡存储信息的容量应当是一张打孔卡的两倍，两个相同信道的信息传输能力应当是一个信道的两倍。
更适用数学运算。
许多极限运算很容易用对数表示，如果采用可能性的数目表示，可能会需要进行冗繁笨拙的重新表述。

那么，为什么选择2为底的对数呢，论文中的解释是这样的：

大致意思是说选择什么为底与用什么单位来度量信息是对应的。采用2为底就是用2进制位，英文：binary digit（香农听了J. W. Tukey的建议，将binary digit简称为bit，bit这个词从此问世)。采用10为底就是用10进制位，而在遇到一些积分和微分的分析中，用e为底有时会很有用，这个时候的信息单位称为自然单位。

个人理解就是这里用什么为底都可以，毕竟单位之间可以转换，但是为了计算方便，如果你使用二进制数字来存储信息，还是用2为底更便捷。比如一开始邮件分类的例子中，有{无聊时阅读的邮件、需及时处理的邮件、无需阅读的邮件}三种，在1000封邮件中，每个类别出现的概率分别是1/2，1/4，1/4。

现在打算用二进制位表示分类，那么就直接可以计算出来各个类别的信息量，也就是各个类别至少需要几个二进制位来表示：

无聊时阅读的邮件：-log2 (1/2) = 1，所以用1个二进制位可以表示；

需及时处理的邮件：-log2 (1/4) = 2，所以用2个二进制位可以表示；

无需阅读的邮件：-log2 (1/4) = 2，所以用2个二进制位可以表示。

那么你可能要问了，虽然计算结果是这样，但是怎么理解呢？

从直觉上理解就是，出现概率越大，信息量越少，比如明天太阳从东边升起，和明天太阳从西边升起，后者的信息量更大是符合直觉判断的；

从存储的角度来理解，对于那些出现概率越大的变量，用越少的位编码的话，就可以节省出越大的空间。

说完了信息量，我们来看看什么是信息熵。

信息量是表达某个事件需要的二进制位数，比如“某个邮件属于需及时处理的邮件”就是一个事件，而所有可能产生的信息量的期望值被定义为信息熵。

根据概率和统计学中对期望值的定义：一个随机变量的期望值是变量的输出值乘以其机率的总和。可以得到信息熵的公式如下：

这里变量的输出值是某个分类对应的信息量，其中的log一般以2为底，变量的机率是某个分类出现的概率。

可以看出，某个数据集中包含的分类越多，信息熵就越大，而包含分类多，说明这个数据集越混乱，越不纯。

因此，在一些机器学习算法比如ID3决策树中就常用信息熵来量化数据集的纯度，以选择出更好的特征来划分数据，让划分出的数据子集越来越纯，最终就可以根据多数表决来决定叶子节点的分类，从而构建出完整的分类决策树。

ok，本篇就这么多内容啦~，感谢阅读O(∩_∩)O。

信息熵为什么要定义成-Σp*log(p)？的更多相关文章

为什么信息熵要定义成-Σp*log(p)？
作者:西贝链接:https://www.zhihu.com/question/30828247/answer/64816509来源:知乎著作权归作者所有.商业转载请联系作者获得授权,非商业转载请注明出 ...
C++中为什么要将析构函数定义成虚函数
构造函数不可以是虚函数的,这个很显然,毕竟虚函数都对应一个虚函数表,虚函数表是存在对象内存空间的,如果构造函数是虚的,就需要一个虚函数表来调用,但是类还没实例化没有内存空间就没有虚函数表,这根本就是个 ...
CodeFirst实体类中，为什么都把ICollection<x>定义成virtual？
主要是用于延迟加载,提高性能用的只有定义成virtual后才可以延迟加载. 延迟加载,默认情况下,延迟加载被支持,如果你希望禁用它,必须显式声明,最好的位置是在 DbContext 的构造器中. p ...
为什么android的R类要定义成16进制
联想到c语言中的宏定义:我想是一个原因如: #define SDL_INIT_TIMER 0x00000001 #define SDL_INIT_AUDIO 0x00000010 #define S ...
IE6 行内定义成块元素后高度失效
问题描述: ie6下,空标签块元素height定义失效,表现为除设置的height值外还会显示N像素额外的高度. 实际运用中,若标签为空且定义了小于14px的高度,再加入一背景图的话,会发现该元素高度 ...
docker 存储定义成direct-lvm 模式
配置direct-lvm模式 1. 停止Docker systemctl stop docker 2. 安装依赖包 device-mapper-persistent-data,lvm2, and ...
Qt 使用qDebug() 打印Qlist 容器数据（将QDebug()定义成某个类的友元函数）
当QList<T>容器中的数据用qDebug() 打印时 ,假如 T 是内置类型(int float ...)与打印一个字符串使用完全一样,假如T 是一个CustomerClass 那 ...
预处理、const、static与sizeof-为什么不把所有的函数都定义成内联函数
1:内联是以代码膨胀(复制)为代价的,仅仅省去了函数调用的开销,从而提高函数的执行效率.如果执行函数体内代码的时间相比于函数调用的开销较大,那么效率的收获会很小.另一方面,每一处内联函数的调用都要复制 ...
EBS请求定义成菜单
1. 将请求定义为“功能”路径:系统管理员 –应用产品-函数输入自定义的功能名称,用户功能名以及说明 “特性”TAB页: 类型选择“表单”,其余两个字段默认:在表单TAB页: 表单字段:选择“运行 ...

随机推荐

解决 VS 跳转定义和 Resharper 重复
在大约一周之前,Visual Studio 进行了一项更新,增加了 Ctrl+Click 点击跳转到定义的功能.这项功能与 ReSharper 重复了. 于是可以通过关闭其中一个跳转定义可以使用. V ...
Android 使用ViewPager结合PhotoView开源组件实现网络图片在线浏览功能
在实际的开发中,我们市场会遇到这样的情况:点击某图片,浏览某列表(某列表详情)中的所有图片数据,当然,这些图片是可以放大和缩小的,比如我们看下百度贴吧的浏览大图的效果: 链接这种功能,在一些app ...
解析P2P金融的业务安全
看了很多乙方同学们写的业务安全,总结下来,其出发点主要是在技术层面风险问题.另外捎带一些业务风险.今天我要谈的是甲方眼里的业务安全问题,甲方和乙方在业务安全的视野上会有一些区别和一些重合.在同一个问题 ...
Activiti学习之spring boot 与activiti整合
声明:本文是springboot2.0的多项目构建,springboot2.0和spingboot1.5的配置是有出入的,构建项目之前请规范您的springboot版本,选择2.0以上. 一.在IDE ...
zoj 3652 Maze
Maze Time Limit: 2 Seconds Memory Limit: 65536 KB Celica is a brave person and believer of a Go ...
H3C HDLC配置
[转]Redis哨兵模式（sentinel）学习总结及部署记录（主从复制、读写分离、主从切换）
Redis的集群方案大致有三种:1)redis cluster集群方案:2)master/slave主从方案:3)哨兵模式来进行主从替换以及故障恢复. 一.sentinel哨兵模式介绍Sentinel ...
51nod1327 棋盘游戏
远古大坑神仙DP状态设计题 https://blog.csdn.net/white_elephant/article/details/83592103 从行的角度入手,无论如何都要状压每列最多放一 ...
C# 单例类
单例类有时候我们不要在一个程序中创建太多的实例.只想用一个全局的实例和一个可以访问点.那么我们需要一个单例类. 因为是单例类啦,所以构造函数肯定是私有的. 需要了解的术语懒汉式顾名思义.什么时候 ...
int64 DWORD 与cstring 互转
//int64 与cstring 互转 int64_t val = 1111111111111111111; CString str; str.Format(("%I64d"), ...

信息熵为什么要定义成-Σp*log(p)？

信息熵为什么要定义成-Σp*log(p)？的更多相关文章

随机推荐

热门专题