deflate树与deflate编码

关于deflate树，能搜到的资料非常少，这个概念来自gzip的压缩算法，是由huffman树转变过来的。这里简单记录下deflate树的生成过程以及deflate编码。

假设以5 8 9 10 14 15，建立一颗huffman树，可以是这个样子的：

           /            \

          27             

      /       \       /        \

            /   \            /   \

也可以交换任意结点的两棵子树

           /            \

          34              27                           

      /       \       /         \

           /   \              /   \

交换的过程虽然会改变叶子结点的huffman编码，但是，不会改变huffman树的带权路径和，也不会改变每个叶子结点的编码长度。基于这一点，我们可以做个更特殊的变换，每一层，让非叶子结点排在右边，叶子结点排在非叶子结点的左边。上面这棵树的变换之后如下：

           /            \

      /       \       /         \

                   /   \      /   \

经过变换后，上面这颗树就称为deflate树。同样，deflate树虽然改变了结点的huffman编码，但是没有改变每个元素的编码长度。在gzip压缩中的语义就是没有改变压缩率。

上面的变化用语言表达起来不好理解，再用一个例子说明：

假设下面是一个huffman树：

                  A

           /             \

          B              C

      /       \       /      \

      D        E      F      G

             /   \  /   \

             G   H I    J

           /   \

           K   L

             /  \

             M  N

转化为deflate之后，如下：

 　　　　　　　　　 A

           /             \

          B              C

      /       \       /         \

      D        G      F          E

                   /   \       /   \

                   I   J      H    G

                                 /   \

                                 K   L

                                   /  \

                                   M  N

那么，转换为deflate树有什么好处呢？

这涉及到码表的记录。所谓的码表就是元素及其对应的编码。

先看下正常huffman编码下码表的记录

还是以5 8 9 10 14 15为集合，以下面这颗huffman树为例：

           /            \

      /       \       /         \

              /   \             /   \

假设走左为0，走右为1，那么码表就是：

15 14 9 10 5 8

00 10 010 011 110 111

为了能够解码，我们必须把这个码表记录下来。

再看下转换为deflate树后，如何记录

上面这颗树转换后如下：

           /            \

      /       \       /         \

                    /   \      /   \

假设还是走左为0，走右为1。转换后元素的编码改变了，码表应该如下：

15 14 9 10 5 8

00 10 100 101 110 111

虽然元素的编码变化了，但不要紧，只要我们记录如上这个码表，还是能把数据还原的。

前边说过，deflate虽然改变了编码，但是每个元素的编码长度是不变的，这个时候，可以只记录每个元素的编码长度，就可以在解码的时候把数据还原。现在，码表这么记录，每一层，从左往右记录叶子结点的编码长度，层次按从上到下。先记录第2层（根节点为第0层）的两个叶子，再记录第三次的4个叶子，码表如下：

15 14 9 10 5 8

2 2 3 3 3 3

先别管如何根据这个码表解码，先对比下这两种记录法，会发现，下面这种码表记录要比上面的码表记录节省比特，2的二进制位10 ， 3的二进制位11 ，总的比特位6*2=12。

而上边的编码总长度为2+2+3+3+3+3=16（15、14的编码长度2，9、10、5、8的编码长度为3）。这并不是偶然，因为一个元素的编码的长度（10的编码长度为3）所占的二进制比特位（10的编码长度3，占二进制2位）肯定小于等于编码所占的长度（10的编码长度3）。

这就是记录码长的好处，为什么要这么计较这一丁点的比特呢，要知道，deflate树是用于压缩算法的，而且这样做并不复杂，何乐而不为？

现在再来说一下，有了这个码表如何解码，解码是编码的逆过程，所以，先看deflate树的编码

deflate树，编码方式为：

第n层的最左边的叶子结点的编码=（（第n-1层的最左边的叶子结点的编码）+ （第n-1层的叶子结点数））<< 1 。

第n层，后一个叶子结点的编码 = 前一个叶子结点的编码+1

还以下面这颗树为例:

           /            \

      /       \       /         \

                   /   \      /   \

15的编码为00

那么9的编码 = （上一层最左边的叶子结点15的编码+上一层的叶子结点数2）<<1

= (00 + 10)<<1

= 100

10的编码 = 9的编码+1 = 101

5的编码 = 10的编码+1 = 110

8的编码 = 5的编码+1 = 111

现在可以说解码过程了，码表先搬下来：

15 14 9 10 5 8

2 2 3 3 3 3

由于这个码表的记录方法是每层叶子结点从左到右，并且层次从上到下的方式，而且，会发现，编码长度就是叶子所在的层次（假设根节点为第0层）。所以，第二层开始出现了第一个叶子结点，第一个叶子结点一定是一直往左的。那么根据编码规则15的编码就是00，14的编码是01，9的编码是（00+2）<<1 = 100...

这就是deflate树与deflate编码。事实上，在gzip中，deflate树的码表并不是这么记录，但deflate树的编码和解码思想是这样的。上面的码表了记录元素及其对应的码长，但在gzip中，为了更好压缩效果，并不会记录元素，而是直接记录元素的编码长度，用一个长度序列来表示码表。如果想了解其实现，应该去看看gzip的源码，gzip的源码非常精彩，极客思想无处不在，简直让人叹为观止。

deflate树与deflate编码的更多相关文章

树的Prufer 编码和最小生成树计数
Prufer数列 Prufer数列是无根树的一种数列.在组合数学中,Prufer数列由有一个对于顶点标过号的树转化来的数列,点数为n的树转化来的Prufer数列长度为n-2.它可以通过简单的迭代方 ...
huffman树即Huffma编码的实现
自己写的Huffman树生成与Huffman编码实现 (实现了核心功能 ,打出了每个字符的huffman编码其他的懒得实现了,有兴趣的朋友可以自己在我的基础增加功能 ) /* 原创文章转载请附上原 ...
【转】ACM 2567 -- 树的Prufer编码
本文介绍北京大学ACM网站2567号题目的解法.介绍部分基本翻译自网站上的题目介绍. 题目介绍: 给定一棵各节点编号为整数1,2,3...n的树(例如,无环连通图),其Prufer编码(Pruf ...
BZOJ1005--[HNOI2008]明明的烦恼（树的prufer编码）
1005: [HNOI2008]明明的烦恼 Time Limit: 1 Sec Memory Limit: 162 MBSubmit: 5768 Solved: 2253[Submit][Stat ...
树的prufer编码
prufer是无根树的一种编码方式,一棵无根树和一个prufer编码唯一对应,也就是一棵树有唯一的prufer编码,而一个prufer编码对应一棵唯一的树. 第一部分:树编码成prufer序列. 树编 ...
数据结构（二十七）Huffman树和Huffman编码
Huffman树是一种在编码技术方面得到广泛应用的二叉树,它也是一种最优二叉树. 一.霍夫曼树的基本概念 1.结点的路径和结点的路径长度:结点间的路径是指从一个结点到另一个结点所经历的结点和分支序列. ...
Huffman树与Huffman编码
1.Huffman树今天复习Huffman树.依稀记得自己被Huffman树虐的经历.还记得是7月份,我刚开始看数据结构与算法,根本看不懂Huffman树的操作.后来我终于悟出了Huffman树是怎 ...
【51NOD1806】wangyurzee的树（Prufer编码，容斥原理，组合计数）
题意:有n个点和m条限制,每条限制限制了一个点的度数不能为某个数. 求合法的树的个数模10^9+7 n<=10^6 m<=17 思路:WYZ作业首先m<=17显然是2^m容斥枚举 ...
简单的理解deflate算法
简单的理解deflate算法最近做压缩算法. 用到了deflate压缩算法, 找了很多资料, 这篇文章算是讲的比较易懂的, 这篇文章不长,但却浅显易懂, 基本上涵盖了我想要知道的所有要点. 翻译 ...

随机推荐

OpenCV——识别手写体数字
这个是树莓派上运行的, opencv3 opencv提供了一张手写数字图片给我们,如下图所示,可以作为识别手写数字的样本库. 0到9共十个数字,每个数字有五行,一行100个数字.首先要把这5000个数 ...
你好，C++（18）到底要不要买这个西瓜？4.1.6 操作符之间的优先顺序
4.1.6 操作符之间的优先顺序在表达一些比较复杂的条件判断时,在同一个表达式中,有时可能会存在多个操作符.比如,我们在判断要不要买某个西瓜时,不仅要判断它的总价(单价8.2元/斤,一共10.3斤) ...
laravel实现发送qq邮件
首先修改config/mail.php 'from' => [ 'address' => 'hello@example.com', 'name' => 'Example', ], 修 ...
Markdown简短教程
前言很早以前就已经接触到Markdown语言,由于各种原因到今天才认真的学习.其实Markdown语言还是比较简单的,在用中学就可以了. 正文本文只是介绍而没有说明其它可选语法,详细可以参考[Ma ...
cf D. Renting Bikes
http://codeforces.com/contest/363/problem/D 先对b和p排序,用二分求出可以租的车子的最大辆数,其中用mid以后的个人钱数去租前mid的价钱的车子. #inc ...
Builder模式的几个要点
1.Builder模式主要用于“分步骤构建一个复杂的对象”.在这其中“分步骤”是一个稳定的算法,而复杂对象的各个部分则经常变化.2.变化点在哪里,封装哪里——Builder模式主要在于应对“复杂对象各 ...
http://wiki.apache.org/tomcat/HowTo
http://wiki.apache.org/tomcat/HowTo Contents Meta How do I add a question to this page? How do I con ...
华为手机root 删除一般不用软件的命令
上个B518海外版的一键root精简精简了以下这些,不想删除的自己可以在刷机脚本中删除对应行就行了,音量解锁,GPS,搜索键关屏,root,添加钛备份4.0,re管理器,其他框架未改动,稳定性不会变 ...
ZOJ3519-Beautiful People：最长上升子序列的变形
Beautiful People Special JudgeTime Limit: 10000/5000MS (Java/Others)Memory Limit: 128000/64000KB (Ja ...
【转】修改Android工程的名称、安装路径
申明:转载自:http://blog.csdn.net/hcj116/article/details/21712353 在Google提供的Eclipse集成开发环境adt-bundle下修改名称的总 ...

deflate树与deflate编码

deflate树与deflate编码的更多相关文章

随机推荐

热门专题