信息熵（Entropy）究竟是用来衡量什么的？

——与Philip ZHANG商榷

思明

　　Philip ZHANG先生在反驳彭小明的时候，提出一个观点，他说：“ 就语言文

字来说，总体效率不是用民族主义来衡量的，而是用信息熵（Entropy）来衡量

的。”

　　张先生介绍说：

　　计算文字效率的基本公式是：

　　H＝－log2（P）

　　H 为信息熵的值（或叫信息量），单位是比特（bit）。

在这基点上，他依据资料引证：

　　英文的平均信息熵是 4.03 比特，

　　法文的平均信息熵是3.98，

　　西班牙文的是 4.01，

　　德文的是 4.10，

　　俄文的是 4.8，

　　而中文的平均信息熵是 9.65比特

　　于是，“汉字是落后的，不管是简体还是繁体”就成了他轻松得到的结论。

　　事实上，要反驳他的结论是一点也不困难的，甚至能够说是很轻松的——仅仅要

知道什么是一种文字的“平均信息熵”。

　　仅仅可惜，张先生把方向正好弄错了180度。

　　公式是有的，叫做平均信息熵也确实。可是根本就不是文字效率的基本公式，

而是在通讯中编码的码长的效率！提出这公式，申农是用以研究信息编码的。说得

通俗一点，就是要（在可能有噪音的情况下）把已方（信息源）的信息进行标准化

编码（比方，0－1化），然后传送出去，对方接收，解码，恢复成原来的信息。

　　研究的重点，是多长的一组码为合理——假设太短，无法正确还原，假设太

长，就有冗余。

　　在接下去谈曾经，先要强调，是码长的节约或冗余，不是信息本身的节约或冗

余。例如说，假设拿尽用分币买东西，分币已经多得非常，钱却不一定够。这是两回

事。

　　以英语为例，信息源集合大体是26个字母加上一个空格，这是基本集合。要传

送给不论什么对方（比方用莫尔斯电码），码长要几位“0－1”？满打满算，是五位。

　　要是用“平均信息的观点”来研究处理，会发现：有些字母出现得常常，另外

一些比較不经经常使用，所以信息源是有点特征的，这特征就是信息含量不“饱满”。

通俗地说，假设英文字母中仅仅有一部分经常使用，其它罕用，通过巧妙编码能够把码长

缩为4个多一点点。实际上因为眼下通讯瓶颈已经不像半世纪曾经那样重要，电脑

里的正规编码方案全是冗余方案，并无人真正採用紧缩方案，连考虑的价值也没

有。

　　那么如何计算信息量又是怎么回事呢？

　　以电脑的0－1编码方法为例，假设“0”和“1”以均等机会出现，P就是1/2，

对数就是－1，H就是1。因此它的信息含量就是1个比特（bit）。假设出现得不均

匀（比方说基本是“0”出现，偶尔才有“1”出现），那么“0”的P值接近于1，

其对数自然接近于0；另外的“1”的P值接近于0，对数就接近于负无穷，经过加权

平均，（这样的无穷乘以0的极限，自然能够用（数学上的计算）方法求出）信息比1

个比特（bit）更小。

　　因此，不论什么一组码的元素（比方英文字母），在最有效使用的情况下，能够传

达的信息量最大，等于log2（N）（以源代码的元数为N，比如英文的满荷值为4.75；

俄文为5.08；依照中文的字数，小字库为12多，大字库为14多。等等）。

　　大家知道，英文字母平均信息熵是 4.03 比特，说明它有一点“浪费”（由于

2的4次方是16，这仅仅相当于均匀使用了16个字母）。假设英文的“平均信息量”少

到1或者2，就相当于仅仅有两个或者四个字母了。所以张先生对英文的表扬可真的一

点意义没有。

　　那么，如果我们的祖先造的汉字仅仅用了非常少的部分，平均信息熵就会非常小，比

如，要是仅仅用“是，不”二字而其它文字统统不用，那就仅仅要有一个比特就够。

　　张先生以为“平均信息熵”越少越好，是犯了一个“方向的错误”。可见，张

先生在信息科学上的知识是多么脆弱，多么不精确！用这种东西作为“证据”，

要我们信改革有几千年历史的汉字非常是必要，太不负责！

　　张先生又引用说：

　　本世纪四十年代，申农和霍夫曼等科学家提出了信息熵理论和方法，基本定理

是：在一种非扩展的无记忆信息源中，字符编码的长度不能小于信息源的熵。这个

定理适合全部的语言文字，是计算机和网络通讯的科学技术基础和project设计的基本

根据。

　　这句话全对。不知道张先生是哪里引用来的，可是张先生显然不理解其含义。

这话说明的是什么？原来，这只是是说，由于英文的平均信息熵是4多一点，因此

作为通讯用的英文字符集的有用长度也至少要有那么长。德文和俄文的字母比英文

多几个，它们多含一点信息量是正常的。德国人之不修改字母，绝对不是由于信息

量多还是少的缘故。多更不是坏事。事实上，大家知道在电脑里英文字母、德文、俄

文统统用的是8位（8比特）。8位的满存储是256个字符，大家相聚在一起，谁多用

谁少用，不会去斤斤计较。德国人也读英文，俄国人也用德文，更没有人用它来比

较“语言的优劣”。

　　中文，一開始是用了双字节的（即16比特），满存储是6万多，如今中文用了

约1/3（当然其它文种还要用）。这和中文的效率并无直接的联系。假设，用一个

汉字表达的“意思”的量，假设（平均起来）和一个英文字母一样多，那汉字就真

太落后了！

　　真是这样？我们的汉字真会这么落后？比方“我”是两个字节，“I”是一

个字节。这就是中文不如英文的“唯一样例”了。可是“人、是、起、而、日、

月、用、无、……”这几百成千个单字（严格说全部汉字）英文里都仅仅要一个字母

吗？不是。英文的字母仅仅有26个，充其量仅仅能有这26个比中文好——可惜英文的单

字母词仅仅有一个“I”，一个“a”（意义太简单，还无独立使用权）其它的（比如

of，on，to，we，me，go，……）能和汉字打平就好。请注意，在用26个字母构成

的676种二字母组合中，有意义的少之又少（比方aa，ab，ac，ad，ae，……就几

乎全无意义）。所以，假设有人用汉字对照英文（在相同意义的词汇）的byte数，

十有八九汉字要“节约”得多！

　　自然英文通过制造缩写的办法攻克了不少问题——UN，USA，WTO，所以说汉字

绝对优越也要慎重。

　　最最可笑的是，假设要依照“用拼音”的建议把中文翻译成拼音（即使那声调

的符号省去、词汇连写等方法全用上），那byte数要大大添加了，尽管那“平均信

息熵”或许还减少了（总不超过5）。打个例如，改用拼音的张先生能够告诉别

人，我的平均信息量已经减少到4多一点（就是说‘我如今最终仅仅要用一分的硬币

买东西了，尽管我每年的开支因此添加了三倍，我才不在乎！’）。由于拼音里除

了a、e以外，是不许单独字母成字的，就是a、e，还留空格。所以假设说要用拼音

作文字，在浪费字节上是天下第一的“文字”——看不易懂还暂且不说！在这个意

义上说，“从一九八九年開始，《人民日报》等报刊就用相同的手法抨击中文改

革，连续发表文章鼓吹‘汉字优越’，说中文改革是盲目西化和导致中国文化传统

消亡，等等。”真是做得对极了，好极了！

　　张先生又说：

　　中文的平均信息熵是 9.65比特，在计算机信息作业的时候，汉字的每一个字符

需》要两个字节的空间，因而中文的信息处理和传递的总体效率比英文等拼音文字

的效率要低得多。

　　这是全然违背基本常识的。套用他的汽车比喻，这好像是说：“独轮车无疑比

12轮大卡车节省10倍，走的路仅仅有1/10”；又好比说“用一元钱的钞票买东西比用

五角钱的贵一倍”；等等……

　　虽然我们已经说明汉字实际上比英文和其它拼音文字仅仅简不冗（从占用字节数

的角度看），语言学上的问题仍然相当复杂，谁简谁繁似乎也还难以成为一种语言

优劣的绝对定论。比方世界语、数学语言、电脑的汇编，显然都极简单并且规范，

但是要取代自然的生活语言明明是不行的。这个问题我们暂且不讨论。

　　张先生的文章还存在很多其他问题，比方他说：

　　无论谁在使用和在哪里使用，也无论使用者的民族感情怎样，这些文字的信息

熵还是它们的信息熵。

　　他根本就不知道，除了整个“民族”的平均信息熵以外，人人的语言都有其独

特的信息熵。比方“不高兴”先生，碰到事情一般都是不高兴；总说“喳”的太

监，他们的语言中的平均信息熵都非常小。相同的字符集而熵小，这绝对不是什么先

进，是贫乏。

　　附带说一句，张先生犯的这个错误，国内某一派的“著名语言学家”在十多年

前已经犯过，也被人尖刻批评过。他们既无法理解（大概对于数学绝缘）也不吱

声，以至于十年过去后，他们的文改信徒还不断反复这错误。可悲又可叹，若把语

言文字工作交给这等“既不内行又不热心”的人！

[中国研究/zgyj1999/xiamian.htm]

信息熵（Entropy）究竟是用来衡量什么的？的更多相关文章

浅谈树模型与集成学习-从决策树到GBDT
引言神经网络模型,特别是深度神经网络模型,自AlexNet在Imagenet Challenge 2012上的一鸣惊人,无疑是Machine Learning Research上最靓的仔,各种进 ...
机器学习决策树ID3算法，手把手教你用Python实现
本文始发于个人公众号:TechFlow,原创不易,求个关注今天是机器学习专题的第21篇文章,我们一起来看一个新的模型--决策树. 决策树的定义决策树是我本人非常喜欢的机器学习模型,非常直观容易理解 ...
【Machine Learning】决策树案例：基于python的商品购买能力预测系统
决策树在商品购买能力预测案例中的算法实现作者:白宁超 2016年12月24日22:05:42 摘要:随着机器学习和深度学习的热潮,各种图书层出不穷.然而多数是基础理论知识介绍,缺乏实现的深入理解.本 ...
3.1决策树理论--python深度机器学习
参考彭亮老师的视频教程:转载请注明出处及彭亮老师原创视频教程: http://pan.baidu.com/s/1kVNe5EJ 0. 机器学习中分类和预测算法的评估: 准确率速度强壮行 ...
决策树 Decision Tree
决策树是一个类似于流程图的树结构:其中,每个内部结点表示在一个属性上的测试,每个分支代表一个属性输出,而每个树叶结点代表类或类分布.树的最顶层是根结点. 决策树的构建想要构建一个决策树,那么咱们 ...
webshell检测方法归纳
背景 webshell就是以asp.php.jsp或者cgi等网页文件形式存在的一种命令执行环境,也可以将其称做为一种网页后门.黑客在入侵了一个网站后,通常会将asp或php后门文件与网站服务器WEB ...
9. HanLP《自然语言处理入门》笔记--9.关键词、关键句和短语提取
笔记转载于GitHub项目:https://github.com/NLP-LOVE/Introduction-NLP 9. 信息抽取信息抽取是一个宽泛的概念,指的是从非结构化文本中提取结构化信息的一 ...
深入了解机器学习决策树模型——C4.5算法
本文始发于个人公众号:TechFlow,原创不易,求个关注今天是机器学习专题的第22篇文章,我们继续决策树的话题. 上一篇文章当中介绍了一种最简单构造决策树的方法--ID3算法,也就是每次选择一个特 ...
决策树ID3算法
决策树 (Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法 ...

随机推荐

js验证表单并提交
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/ ...
RPM包查询
一.查询包是否安装 [root@localhost Packages]# rpm -q httpd ---> 查询已安装的包(命令包名) #选项: # -q 查 ...
关于C#中的抽象类、抽象方法和虚方法的探究
2016年的第一篇文章,容我先喷喷新年的情怀,..........,好了,喷的差不多了. 在面向对象中,我们需要对类进行横向和纵向的认识,不同的类有不同特色的成员,同时在不同类的继承中,子类获得父类的 ...
java开发的web下载大数据时的异常处理
同事用java开发了一个系统,其中有一个功能是下载大约10万笔数据到Excel中.当上线后,很多用户反映下载数据量大的时候就不能成功,但有时可以,所以结论就是系统不稳定,这个问题拖了很久没有解决. 在 ...
CodeFirst解决数据迁移问题
CodeFirst解决数据迁移问题分类: 数据库设计模式 c#2013-04-24 17:56 137人阅读评论(0) 收藏举报工程用的MVC + Entity Framework,根据Co ...
新Android学习计划
最近,在学习Android Design Support Library提供的新控件过程中,我感受到了原来的学习方式的缺点: 学习内容过于随意,在工作过程中碰到的新问题都想去掌握,心血来潮就想写一篇相 ...
32位PLSQL_Developer连接oracle11g_64位
1. 请将你下载的instantclient-basic-win32-10.2.0.5 文件解压.然后复制到你的数据库安装的文件夹下的producti文件夹下,我的是: E:\app\Administ ...
ubuntu 快捷键和安装知识知识
本文节选自“The Official Ubuntu Book, 7th Edition.pdf” 快捷键部分直接引用原书中图片. Linux Folders Learning Unity Keyboa ...
HDU 5141
这个题 LIS + 并查集的思想 + 链式前向星要求找s(i,j)使i j 能有最长的LIS ... 做法是枚举每一个j 即终点算起点的可能无力吐槽了 bc 的时候写错了一个地方 ...
Android 虚拟机快捷键
何须这样麻烦,直接用快捷键就行了,你用鼠标点来点去怎么还不如用快捷键来得快:一下是快捷键: Home键(小房子键) 在键盘上映射的就是home键,这倒是很好记. Menu键用于打开菜单的按键,在键盘 ...

信息熵（Entropy）究竟是用来衡量什么的？

信息熵（Entropy）究竟是用来衡量什么的？的更多相关文章

随机推荐

热门专题