信息熵(Entropy)究竟是用来衡量什么的?
Philip ZHANG先生在反驳彭小明的时候,提出一个观点,他说:“ 就语言文 字来说,总体效率不是用民族主义来衡量的,而是用信息熵(Entropy)来衡量 的。” 张先生介绍说: 计算文字效率的基本公式是: H=-log2(P) H 为信息熵的值(或叫信息量),单位是比特(bit)。 在这基点上,他依据资料引证: 英文的平均信息熵是 4.03 比特, 法文的平均信息熵是3.98, 西班牙文的是 4.01, 德文的是 4.10, 俄文的是 4.8, 而中文的平均信息熵是 9.65比特 于是,“汉字是落后的,不管是简体还是繁体”就成了他轻松得到的结论。 事实上,要反驳他的结论是一点也不困难的,甚至能够说是很轻松的——仅仅要 知道什么是一种文字的“平均信息熵”。 仅仅可惜,张先生把方向正好弄错了180度。 公式是有的,叫做平均信息熵也确实。可是根本就不是文字效率的基本公式, 而是在通讯中编码的码长的效率!提出这公式,申农是用以研究信息编码的。说得 通俗一点,就是要(在可能有噪音的情况下)把已方(信息源)的信息进行标准化 编码(比方,0-1化),然后传送出去,对方接收,解码,恢复成原来的信息。 研究的重点,是多长的一组码为合理——假设太短,无法正确还原,假设太 长,就有冗余。 在接下去谈曾经,先要强调,是码长的节约或冗余,不是信息本身的节约或冗 余。例如说,假设拿尽用分币买东西,分币已经多得非常,钱却不一定够。这是两回 事。 以英语为例,信息源集合大体是26个字母加上一个空格,这是基本集合。要传 送给不论什么对方(比方用莫尔斯电码),码长要几位“0-1”?满打满算,是五位。 要是用“平均信息的观点”来研究处理,会发现:有些字母出现得常常,另外 一些比較不经经常使用,所以信息源是有点特征的,这特征就是信息含量不“饱满”。 通俗地说,假设英文字母中仅仅有一部分经常使用,其它罕用,通过巧妙编码能够把码长 缩为4个多一点点。实际上因为眼下通讯瓶颈已经不像半世纪曾经那样重要,电脑 里的正规编码方案全是冗余方案,并无人真正採用紧缩方案,连考虑的价值也没 有。 那么如何计算信息量又是怎么回事呢? 以电脑的0-1编码方法为例,假设“0”和“1”以均等机会出现,P就是1/2, 对数就是-1,H就是1。因此它的信息含量就是1个比特(bit)。假设出现得不均 匀(比方说基本是“0”出现,偶尔才有“1”出现),那么“0”的P值接近于1, 其对数自然接近于0;另外的“1”的P值接近于0,对数就接近于负无穷,经过加权 平均,(这样的无穷乘以0的极限,自然能够用(数学上的计算)方法求出)信息比1 个比特(bit)更小。 因此,不论什么一组码的元素(比方英文字母),在最有效使用的情况下,能够传 达的信息量最大,等于log2(N)(以源代码的元数为N,比如英文的满荷值为4.75; 俄文为5.08;依照中文的字数,小字库为12多,大字库为14多。等等)。 大家知道,英文字母平均信息熵是 4.03 比特,说明它有一点“浪费”(由于 2的4次方是16,这仅仅相当于均匀使用了16个字母)。假设英文的“平均信息量”少 到1或者2,就相当于仅仅有两个或者四个字母了。所以张先生对英文的表扬可真的一 点意义没有。 那么,如果我们的祖先造的汉字仅仅用了非常少的部分,平均信息熵就会非常小,比 如,要是仅仅用“是,不”二字而其它文字统统不用,那就仅仅要有一个比特就够。 张先生以为“平均信息熵”越少越好,是犯了一个“方向的错误”。可见,张 先生在信息科学上的知识是多么脆弱,多么不精确!用这种东西作为“证据”, 要我们信改革有几千年历史的汉字非常是必要,太不负责! 张先生又引用说: 本世纪四十年代,申农和霍夫曼等科学家提出了信息熵理论和方法,基本定理 是:在一种非扩展的无记忆信息源中,字符编码的长度不能小于信息源的熵。这个 定理适合全部的语言文字,是计算机和网络通讯的科学技术基础和project设计的基本 根据。 这句话全对。不知道张先生是哪里引用来的,可是张先生显然不理解其含义。 这话说明的是什么?原来,这只是是说,由于英文的平均信息熵是4多一点,因此 作为通讯用的英文字符集的有用长度也至少要有那么长。德文和俄文的字母比英文 多几个,它们多含一点信息量是正常的。德国人之不修改字母,绝对不是由于信息 量多还是少的缘故。多更不是坏事。事实上,大家知道在电脑里英文字母、德文、俄 文统统用的是8位(8比特)。8位的满存储是256个字符,大家相聚在一起,谁多用 谁少用,不会去斤斤计较。德国人也读英文,俄国人也用德文,更没有人用它来比 较“语言的优劣”。 中文,一開始是用了双字节的(即16比特),满存储是6万多,如今中文用了 约1/3(当然其它文种还要用)。这和中文的效率并无直接的联系。假设,用一个 汉字表达的“意思”的量,假设(平均起来)和一个英文字母一样多,那汉字就真 太落后了! 真是这样?我们的汉字真会这么落后?比方“我”是两个字节,“I”是一 个字节。这就是中文不如英文的“唯一样例”了。可是“人、是、起、而、日、 月、用、无、……”这几百成千个单字(严格说全部汉字)英文里都仅仅要一个字母 吗?不是。英文的字母仅仅有26个,充其量仅仅能有这26个比中文好——可惜英文的单 字母词仅仅有一个“I”,一个“a”(意义太简单,还无独立使用权)其它的(比如 of,on,to,we,me,go,……)能和汉字打平就好。请注意,在用26个字母构成 的676种二字母组合中,有意义的少之又少(比方aa,ab,ac,ad,ae,……就几 乎全无意义)。所以,假设有人用汉字对照英文(在相同意义的词汇)的byte数, 十有八九汉字要“节约”得多! 自然英文通过制造缩写的办法攻克了不少问题——UN,USA,WTO,所以说汉字 绝对优越也要慎重。 最最可笑的是,假设要依照“用拼音”的建议把中文翻译成拼音(即使那声调 的符号省去、词汇连写等方法全用上),那byte数要大大添加了,尽管那“平均信 息熵”或许还减少了(总不超过5)。打个例如,改用拼音的张先生能够告诉别 人,我的平均信息量已经减少到4多一点(就是说‘我如今最终仅仅要用一分的硬币 买东西了,尽管我每年的开支因此添加了三倍,我才不在乎!’)。由于拼音里除 了a、e以外,是不许单独字母成字的,就是a、e,还留空格。所以假设说要用拼音 作文字,在浪费字节上是天下第一的“文字”——看不易懂还暂且不说!在这个意 义上说,“从一九八九年開始,《人民日报》等报刊就用相同的手法抨击中文改 革,连续发表文章鼓吹‘汉字优越’,说中文改革是盲目西化和导致中国文化传统 消亡,等等。”真是做得对极了,好极了! 张先生又说: 中文的平均信息熵是 9.65比特,在计算机信息作业的时候,汉字的每一个字符 需》要两个字节的空间,因而中文的信息处理和传递的总体效率比英文等拼音文字 的效率要低得多。 这是全然违背基本常识的。套用他的汽车比喻,这好像是说:“独轮车无疑比 12轮大卡车节省10倍,走的路仅仅有1/10”;又好比说“用一元钱的钞票买东西比用 五角钱的贵一倍”;等等…… 虽然我们已经说明汉字实际上比英文和其它拼音文字仅仅简不冗(从占用字节数 的角度看),语言学上的问题仍然相当复杂,谁简谁繁似乎也还难以成为一种语言 优劣的绝对定论。比方世界语、数学语言、电脑的汇编,显然都极简单并且规范, 但是要取代自然的生活语言明明是不行的。这个问题我们暂且不讨论。 张先生的文章还存在很多其他问题,比方他说: 无论谁在使用和在哪里使用,也无论使用者的民族感情怎样,这些文字的信息 熵还是它们的信息熵。 他根本就不知道,除了整个“民族”的平均信息熵以外,人人的语言都有其独 特的信息熵。比方“不高兴”先生,碰到事情一般都是不高兴;总说“喳”的太 监,他们的语言中的平均信息熵都非常小。相同的字符集而熵小,这绝对不是什么先 进,是贫乏。 附带说一句,张先生犯的这个错误,国内某一派的“著名语言学家”在十多年 前已经犯过,也被人尖刻批评过。他们既无法理解(大概对于数学绝缘)也不吱 声,以至于十年过去后,他们的文改信徒还不断反复这错误。可悲又可叹,若把语 言文字工作交给这等“既不内行又不热心”的人! [中国研究/zgyj1999/xiamian.htm] |
信息熵(Entropy)究竟是用来衡量什么的?的更多相关文章
- 浅谈树模型与集成学习-从决策树到GBDT
引言 神经网络模型,特别是深度神经网络模型,自AlexNet在Imagenet Challenge 2012上的一鸣惊人,无疑是Machine Learning Research上最靓的仔,各种进 ...
- 机器学习决策树ID3算法,手把手教你用Python实现
本文始发于个人公众号:TechFlow,原创不易,求个关注 今天是机器学习专题的第21篇文章,我们一起来看一个新的模型--决策树. 决策树的定义 决策树是我本人非常喜欢的机器学习模型,非常直观容易理解 ...
- 【Machine Learning】决策树案例:基于python的商品购买能力预测系统
决策树在商品购买能力预测案例中的算法实现 作者:白宁超 2016年12月24日22:05:42 摘要:随着机器学习和深度学习的热潮,各种图书层出不穷.然而多数是基础理论知识介绍,缺乏实现的深入理解.本 ...
- 3.1决策树理论--python深度机器学习
参考彭亮老师的视频教程:转载请注明出处及彭亮老师原创 视频教程: http://pan.baidu.com/s/1kVNe5EJ 0. 机器学习中分类和预测算法的评估: 准确率 速度 强壮行 ...
- 决策树 Decision Tree
决策树是一个类似于流程图的树结构:其中,每个内部结点表示在一个属性上的测试,每个分支代表一个属性输出,而每个树叶结点代表类或类分布.树的最顶层是根结点.  决策树的构建 想要构建一个决策树,那么咱们 ...
- webshell检测方法归纳
背景 webshell就是以asp.php.jsp或者cgi等网页文件形式存在的一种命令执行环境,也可以将其称做为一种网页后门.黑客在入侵了一个网站后,通常会将asp或php后门文件与网站服务器WEB ...
- 9. HanLP《自然语言处理入门》笔记--9.关键词、关键句和短语提取
笔记转载于GitHub项目:https://github.com/NLP-LOVE/Introduction-NLP 9. 信息抽取 信息抽取是一个宽泛的概念,指的是从非结构化文本中提取结构化信息的一 ...
- 深入了解机器学习决策树模型——C4.5算法
本文始发于个人公众号:TechFlow,原创不易,求个关注 今天是机器学习专题的第22篇文章,我们继续决策树的话题. 上一篇文章当中介绍了一种最简单构造决策树的方法--ID3算法,也就是每次选择一个特 ...
- 决策树ID3算法
决策树 (Decision Tree)是在已知各种情况发生概率的基础上,通过构成 决策树 来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法 ...
随机推荐
- js验证表单并提交
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/ ...
- RPM包查询
一.查询包是否安装 [root@localhost Packages]# rpm -q httpd ---> 查询已安装的包(命令包名) #选项: # -q 查 ...
- 关于C#中的抽象类、抽象方法和虚方法的探究
2016年的第一篇文章,容我先喷喷新年的情怀,..........,好了,喷的差不多了. 在面向对象中,我们需要对类进行横向和纵向的认识,不同的类有不同特色的成员,同时在不同类的继承中,子类获得父类的 ...
- java开发的web下载大数据时的异常处理
同事用java开发了一个系统,其中有一个功能是下载大约10万笔数据到Excel中.当上线后,很多用户反映下载数据量大的时候就不能成功,但有时可以,所以结论就是系统不稳定,这个问题拖了很久没有解决. 在 ...
- CodeFirst解决数据迁移问题
CodeFirst解决数据迁移问题 分类: 数据库 设计模式 c#2013-04-24 17:56 137人阅读 评论(0) 收藏 举报 工程用的MVC + Entity Framework,根据Co ...
- 新Android学习计划
最近,在学习Android Design Support Library提供的新控件过程中,我感受到了原来的学习方式的缺点: 学习内容过于随意,在工作过程中碰到的新问题都想去掌握,心血来潮就想写一篇相 ...
- 32位PLSQL_Developer连接oracle11g_64位
1. 请将你下载的instantclient-basic-win32-10.2.0.5 文件解压.然后复制到你的数据库安装的文件夹下的producti文件夹下,我的是: E:\app\Administ ...
- ubuntu 快捷键和安装知识知识
本文节选自“The Official Ubuntu Book, 7th Edition.pdf” 快捷键部分直接引用原书中图片. Linux Folders Learning Unity Keyboa ...
- HDU 5141
这个题 LIS + 并查集的思想 + 链式前向星 要求找s(i,j)使i j 能有最长的LIS ... 做法是枚举每一个j 即终点 算 起点 的可能 无力吐槽了 bc 的时候写错了一个地方 ...
- Android 虚拟机快捷键
何须这样麻烦,直接用快捷键就行了,你用鼠标点来点去怎么还不如用快捷键来得快:一下是快捷键: Home键(小房子键) 在键盘上映射的就是home键,这倒是很好记. Menu键 用于打开菜单的按键,在键盘 ...