Android版数据结构与算法(七):赫夫曼树
版权声明:本文出自汪磊的博客,未经作者允许禁止转载。
近期忙着新版本的开发,此外正在回顾C语言,大部分时间没放在数据结构与算法的整理上,所以更新有点慢了,不过既然写了就肯定尽力将这部分完全整理好分享出来。
言归正传,开启本篇的正文。
一、什么是赫夫曼树
给定n个权值作为n个叶子结点,构造一棵二叉树,若该树的带权路径长度达到最小,称这样的二叉树为最优二叉树,也称为哈夫曼树(Huffman Tree)。哈夫曼树是带权路径长度最短的树,权值较大的结点离根较近。
以上来自百度百科,相信完全不了解的同学看完肯定一头雾水,啥玩意,这么多术语,权值?树的带权路径长度?都是什么鬼?别急,下面一一解释。
二、赫夫曼树中术语解释
路径:从树中一个结点到另一个结点之间的分支构成两个结点之间的路径。
结点路径长度:一个结点到另一个结点之间路径上分枝数目称作路径长度。
比如上图中根结点到A结点路径长度为3
树的路径长度:从树根结点到每一结点的路径长度之和称作树的路径长度之和。这里是每一结点,而不仅仅是叶子结点。
比如上图树的路径长度为:1+1+2+2+2+2+3+3 = 16
结点权值:将树中的结点赋予一个有意义的数,称为该结点的权值。
结点的带权路径长度:从该结点到树根之间的路径长度与该结点权值的乘机叫做结点的带权路径长度。
比如上图中A结点带权路径长度为:3 * 5 = 15
树的带权路径长度:树中所有叶子结点的带权路径长度之和叫作树的带权路径长度。
上图树的带权路径长度为:3*5+15*3+40*2+30*2+10*2=220
树的带权路径长度可计作WPL,赫夫曼树就是WPL最小的的二叉树。
三、赫夫曼树的创建
了解了基本的概念之后我们继续看下赫夫曼树到底怎么创建呢?以下就直接说创建流程了。
比如我们有以下几个结点信息:A5(A代表结点名字,5代表其权值),B15,C40,D30,E10。
构造赫夫曼树流程如下:
(1)先把有权值的叶子结点从小到大排序成一个有序序列:A5,E10,B15,D30,C40。
(2)取头两个最小权值的结点作为新结点M1的两个子结点,其中权值小的结点在左侧,权值大的在右侧。即A5为M1的左孩子,E10为M1的右孩子,M1结点权值为两个子结点权值的和15,即M15,如图:
(3)新结点M15替换A5与E10结点,插入有序序列中,依然保持从小到大排序:M15,B15,D30,C40。
(4)重复步骤(2),将M15与B15作为新结点P的左右孩子,P的权值为30,如图:
(5) P30替换M15,B15插入有序序列中依然保持从小到大顺序:P30,D30,C40。
(6)重复步骤(2),将P30,D30作为新结点T的左右孩子,T结点权值为60,如图:
(7)T60替换P30,D30插入有序序列,依然保持从小到达排序:C40,T60。
(8)重复步骤(2),C40,T60作为新结点N的左右孩子,N权值为100,N即为根结点,完成赫夫曼树的构建,如图:
到此,赫夫曼树就已经构建完成,其WPL为:WPL=40*1+30*2+15*3+5*4+10*4=205
整个构建过程核心思想就是让权值小的结点距离根结点远,权值大的距离根结点近一些。
四、赫夫曼编码
赫夫曼老爷子研究最优树可不是仅仅为了构建就完事了,肯定有其用处的,赫夫曼树就是为了解决当年远距离通信的数据最优化问题。
比如我们有一段文字"EDEFABAC..."要进行网络传输,一般我们都会选择二进制方式传输,这段文字只包含6个字母:ABCDEF,那么用二进制表示每个字母需要用3位表示,如图:
字母 | A | B | C | D | E | F |
二进制表示 | 000 | 001 | 010 | 011 | 100 | 101 |
这段文字中各字母出现频率分别为A 20, B 10, C 15, D 15, E 25, F 15,正好100%。
这样就可以按照赫夫曼树思想来重新规划各个字母的编码,频率即是各个字母的权重,构建赫夫曼树, 并且将左孩子权重改为0,右孩子改为1,得到下图:
然后我们对各个字母重新编码,编码规则为:从根结点到叶子结点经过路径的0和1来编码,重新编码后如下:
字母 | A | B | C | D | E | F |
二进制表示 | 10 | 11110 | 11111 | 1110 | 0 | 110 |
将"EDEFABAC"这段文字进行编码的前后比较:
原编码:100011100101000001000010 (24个字符)
新编码:01110011010111101011111 (23个字符)
编码后数据被压缩了,这里大家可以觉得才减少一个字符啊,实际情况不可能只有这几个字符的,一个文本会包含很多的字符,这样就可以被压缩很多空间,更利于数据的传输。
五、总结
以上介绍了赫夫曼树以及其使用场景之一(数据的压缩),赫夫曼树原理还有很多其余用处,学习赫夫曼树更多的是要体会其思想,好了,本篇到此为止,下一篇二叉排序树的介绍以及java代码的实现。
声明:文章将会陆续搬迁到个人公众号,以后文章也会第一时间发布到个人公众号,及时获取文章内容请关注公众号
Android版数据结构与算法(七):赫夫曼树的更多相关文章
- 【算法】赫夫曼树(Huffman)的构建和应用(编码、译码)
参考资料 <算法(java)> — — Robert Sedgewick, Kevin Wayne <数据结构> ...
- 10: java数据结构和算法: 构建哈夫曼树, 获取哈夫曼编码, 使用哈夫曼编码原理对文件压缩和解压
最终结果哈夫曼树,如图所示: 直接上代码: public class HuffmanCode { public static void main(String[] args) { //获取哈夫曼树并显 ...
- Java数据结构和算法(四)赫夫曼树
Java数据结构和算法(四)赫夫曼树 数据结构与算法目录(https://www.cnblogs.com/binarylei/p/10115867.html) 赫夫曼树又称为最优二叉树,赫夫曼树的一个 ...
- Android版数据结构与算法(六):树与二叉树
版权声明:本文出自汪磊的博客,未经作者允许禁止转载. 之前的篇章主要讲解了数据结构中的线性结构,所谓线性结构就是数据与数据之间是一对一的关系,接下来我们就要进入非线性结构的世界了,主要是树与图,好了接 ...
- 【数据结构】赫夫曼树的实现和模拟压缩(C++)
赫夫曼(Huffman)树,由发明它的人物命名,又称最优树,是一类带权路径最短的二叉树,主要用于数据压缩传输. 赫夫曼树的构造过程相对比较简单,要理解赫夫曼数,要先了解赫夫曼编码. 对一组出现频率不同 ...
- javascript实现数据结构: 树和二叉树的应用--最优二叉树(赫夫曼树),回溯法与树的遍历--求集合幂集及八皇后问题
赫夫曼树及其应用 赫夫曼(Huffman)树又称最优树,是一类带权路径长度最短的树,有着广泛的应用. 最优二叉树(Huffman树) 1 基本概念 ① 结点路径:从树中一个结点到另一个结点的之间的分支 ...
- C#数据结构-赫夫曼树
什么是赫夫曼树? 赫夫曼树(Huffman Tree)是指给定N个权值作为N个叶子结点,构造一棵二叉树,若该树的带权路径长度达到最小.哈夫曼树(也称为最优二叉树)是带权路径长度最短的树,权值较大的结点 ...
- 赫夫曼树JAVA实现及分析
一,介绍 1)构造赫夫曼树的算法是一个贪心算法,贪心的地方在于:总是选取当前频率(权值)最低的两个结点来进行合并,构造新结点. 2)使用最小堆来选取频率最小的节点,有助于提高算法效率,因为要选频率最低 ...
- puk1521 赫夫曼树编码
Description An entropy encoder is a data encoding method that achieves lossless data compression by ...
随机推荐
- js万年历,麻雀虽小五脏俱全,由原生js编写
对于前端来说,我们可能见到最多的就是各种各样的框架,各种各样的插件了,有各种各样的功能,比如轮播啊,日历啊,给我们提供了很大的方便,但是呢?我们在用别人这些写好的插件,框架的时候,有没有试着问一问自己 ...
- 关于dropout的有趣的进化论解释
训练神经网络时,使用dropout技术来防止网络的过拟合.我们这里且不谈这个技术的细节,但就这项技术的有趣的生物进化论解释了解下.自然界的高等生物进化出了两性繁殖,其原因可以解释为使得变异的基因能散播 ...
- redis Web服务器
redis是一个key-value存储系统.和Memcached类似,它支持存储的value类型相对更多,包括string(字符串).list(链表).set(集合).zset(sorted set ...
- 【原】fetch跨域请求附带cookie(credentials)
HTTP访问控制 https://developer.mozilla.org/zh-CN/docs/Web/HTTP/Access_control_CORS 解决跨域的方式有很多种,本文介绍" ...
- Shiro入门之二 --------基于注解方式的权限控制与Ehcache缓存
一 基于注解方式的权限控制 首先, 在spring配置文件applicationContext.xml中配置自动代理和切面 <!-- 8配置自动代理 --> <bean cl ...
- gevent:异步理论与实战[转]
原创 2018-01-10 大邓 大邓带你玩python gevent库中使用的最核心的是Greenlet-一种用C写的轻量级python模块.在任意时间,系统只能允许一个Greenlet处于运行状态 ...
- Vue 2.0 路由全局守卫
vue2.0 实现导航守卫(路由守卫) 路由跳转前做一些验证,比如登录验证,是网站中的普遍需求. 对此,vue-route 提供的 beforeRouteUpdate 可以方便地实现导航守卫(navi ...
- 手把手教你创建「人物角色Persona」
一.为什么要创建人物角色 下图来自 Cooper interaction design ,同样有购车需求的用户,用车的人不同.各自的目的不同,最终满足需求的车型也有很大差异.对于汽车公司而言,在车辆设 ...
- 最简单易懂的SpringCloudSleuth教程
事务mapjvm 大佬对下面的说法是否同意呢 能否比较下zipkin,pinpoint,以及skywalking.该如何选型 回答: 他们都提供了分布式服务跟踪的能力,pinpoint以及skywal ...
- 【基于url权限管理 shiro(一)】--基础
只要有用户参与的系统一般都要有权限管理,权限管理实现对用户访问系统的控制,按照安全规则或者安全策略控制用户可以访问而且只能访问自己被授权的资源.权限管理包括用户认证和授权两部分. 用户认证 1.概 ...