【数据压缩】Huffman编码
1. 压缩编码概述
数据压缩在日常生活极为常见,平常所用到jpg、mp3均采用数据压缩(采用Huffman编码)以减少占用空间。编码\(C\)是指从字符空间\(A\)到码字表\(X\)的映射。数据压缩编码指编码后信息的长度较于原始信息要短。本文试图探讨Huffman编码是如何保证唯一可译性、如何压缩、以及压缩效率如何?
前缀码
前缀码的任意一码字均不为其他码字的前缀,此保证了编码的唯一可译性。比如码字表{0, 01, 11, 1},0为01的前缀,1为11的前缀;当遇到字符文本011100,是应分隔为01-11-0-0还是0-11-1-0-0等?若采用前缀码编码,码字表为{0, 10, 11},则字符文本011100可即时分隔为0-11-10-0可译,所以前缀码亦被称为即时码。同时,前缀码保证了编码的唯一可译性,即字符空间\(A\)到码字表\(X\)的映射为一一映射。本文探讨的Huffman编码即为前缀码。
根据码字长度,编码分为等长编码与变长编码。等长编码即字母表中所有码字的长度均相等,最为常见的是字长7位的ASCII码。变长编码则是码字的长度可能存在不相等。
前缀码可表示为叶子节点为码字的编码二叉树,如图所示。

期望编码长度
如上图所示的两种变长编码,哪一种编码压缩效率比较好?显然,若信息编码之后的长度越小,则编码的压缩效率越好。为此,我们引出刻画量度期望编码长度。
首先我们定义字符空间\(A = \lbrace a_1,a_2, \cdots ,a_n \rbrace\),即信息文本中有n个字符,且字符\(a_i\)的长度为\(l_i\),出现频率(即概率)为\(p_i\);则期望编码长度为
\[
L = \sum\limits_{i = 1}^n {p_i*l_i}
\]
若要期望编码长度\(L\)越小,学过数学的都知道,则高概率的码字字长应不长于低概率的码字字长,即满足
\[\forall i,j \ \ \ p_i \ge p_j \Leftrightarrow l_i \le l_j\]
最优编码
对于二元编码(01)的前缀码,满足McMillan-Kraft不等式
\[\sum\limits_{i = 1}^n {{2^{ - l_i}}} \le 1\]
具体的证明参看[3]。McMillan-Kraft不等式从整体上限制编码长度的下界。
如下图所示的前缀码即满足McMillan-Kraft不等式。

最优编码指期望编码长度最小的编码,求解最优编码等价于数学问题:
\begin{align}
& \min \sum\limits_{i = 1}^n {{p_i}*{l_i}} \cr
& s.t. \ \sum {{2^{ - {l_i}}}} \le 1 \label{eq:kraft}
\end{align}
运用拉格朗日乘子法,构造目标函数
\begin{equation}
J = \sum {p_i*l_i + \lambda (\sum {{2^{ - l_i}}} } )
\end{equation}
对\(l_i\)求偏导,
\[{{\partial J} \over {\partial l_i}} = p_i - \lambda {2^{ - l_i}}\ln 2\]
令偏导为0,得到
\[{2^{ - l_i}} = {{p_i} \over {\lambda \ln 2}}\]
将其代入McMillan-Kraft不等式\eqref{eq:kraft}中,得到\(\lambda = {1 \over {\ln 2}}\),最优编码的码字长度
\begin{equation}
l_i = - \log _{2}p_i
\end{equation}
最优编码的期望码字长度即为字符空间的熵:
\begin{equation}
\sum\limits_{i} {p_il_i = - \sum\limits_{i} {p_i \log p_i} } = H(A)
\end{equation}
由此,定义编码的冗余度(Redundancy of a code),表示编码的冗余描述:
\begin{equation}
\rho = L - H(A)
\end{equation}
可以证明,前缀码的编码长度满足不等式
\begin{equation}
H(A) \le L \le H(A) + 1
\end{equation}
因此,前缀码的冗余度满足\(0 \le \rho \le 1\)。
2. Huffman编码
Huffman编码采用小顶堆来优化编码二叉树的建立过程,确保低概率的码字字长不短于高概率的码字,具体编码过程如下:
- 将字符空间的字符以概率为关键值建立小顶堆;
- 依次取堆顶元素两次,将该两个字符合成一棵二叉树,根节点的关键值为两个字符的概率相加;然后将该新合成的二叉树做为节点插入到小顶堆中;
- 重复步骤2直至小顶堆中只有一个节点,此节点即为编码二叉树。
编码二叉树建立过程如图所示

此字符空间有9个字符,采用等长编码则需要\(4\) bit;Huffman编码的期望字长则为\(2.77\) bit;字符空间的熵为\(2.69\) bit;冗余度为\(2.77-2.69=0.08\) bit.
关于Huffman编码的Python实现,请参看[4]。
3. 参考资料
[1] DAVID A. HUFFMAN, A Method for the Construction of Minimum-Redundancy Codes.
[2] Bernd Girod, EE398A Image and Video Compression.
[3] Cover T M, Thomas J A, Elements of Information Theory, 2nd edition[J].
[4] rosettacode, Huffman_coding#Python.
【数据压缩】Huffman编码的更多相关文章
- Huffman 编码压缩算法
前两天发布那个rsync算法后,想看看数据压缩的算法,知道一个经典的压缩算法Huffman算法.相信大家应该听说过 David Huffman 和他的压缩算法—— Huffman Code,一种通过字 ...
- [转载]Huffman编码压缩算法
转自http://coolshell.cn/articles/7459.html 前两天发布那个rsync算法后,想看看数据压缩的算法,知道一个经典的压缩算法Huffman算法.相信大家应该听说过 D ...
- [老文章搬家] 关于 Huffman 编码
按:去年接手一个项目,涉及到一个一个叫做Mxpeg的非主流视频编码格式,编解码器是厂商以源代码形式提供的,但是可能代码写的不算健壮,以至于我们tcp直连设备很正常,但是经过一个UDP数据分发服务器之后 ...
- Huffman编码
#define _CRT_SECURE_NO_WARNINGS #include <iostream> #include <cstdio> #include <cstri ...
- 优先队列求解Huffman编码 c++
优先队列小析 优先队列的模板: template <class T, class Container = vector<T>,class Compare = less< ...
- Huffman编码实现电文的转码与译码
//first thing:thanks to my teacher---chenrong Dalian Maritime university /* 构造Huffman Tree思路: ( ...
- huffman 编码
huffman压缩是一种压缩算法,其中经典的部分就是根据字符出现的频率建立huffman树,然后根据huffman树的构建结果标示每个字符.huffman编码也称为前缀编码,就是每个字符的表示形式不是 ...
- 基于二叉树和数组实现限制长度的最优Huffman编码
具体介绍详见上篇博客:基于二叉树和双向链表实现限制长度的最优Huffman编码 基于数组和基于链表的实现方式在效率上有明显区别: 编码256个符号,符号权重为1...256,限制长度为16,循环编码1 ...
- uvalive 2088 - Entropy(huffman编码)
题目连接:2088 - Entropy 题目大意:给出一个字符串, 包括A~Z和_, 现在要根据字符出现的频率为他们进行编码,要求编码后字节最小, 然后输出字符均为8字节表示时的总字节数, 以及最小的 ...
随机推荐
- java 多线程(daemon)
package com.example; public class App { public static void main(String[] args) { DoDaemon d1 = new D ...
- 一致性hash的理解
参考: http://www.blogjava.net/hello-yun/archive/2012/10/10/389289.html http://blog.csdn.net/cywosp/art ...
- Wix 安装部署教程(十一) ---QuickWix
这次发布的是这两天做的一个WIX工具QuickWIX,主要解决两个问题点1.对大文件快速生成wix标签(files,Directories,ComponentRef):2.比较前后两次工程的差异.大的 ...
- Nim教程【十四】
网友@沉没捕鱼,赞助了一台服务器 这个系列的教程写完之后,我们就要开始着手搭建Nim的社区了~ 异常 Nim中的异常类型是对象类型 根据惯例,Nim中的异常类型的命名都应该以Error后缀结尾 在sy ...
- DNS拾遗(二)
MX Record补充 MX记录有优先级的概念,数字越小表示优先级越高.所以一个域可以配置多个不同优先级的MX记录,如果邮件通过第一优先级记录无法递送,则采用第二优先级,以此类推. TXT Recor ...
- 如何为编程爱好者设计一款好玩的智能硬件(九)——LCD1602点阵字符型液晶显示模块驱动封装(下)
六.温湿度传感器DHT11驱动封装(下):如何为编程爱好者设计一款好玩的智能硬件(六)——初尝试·把温湿度给收集了(下)! 七.点阵字符型液晶显示模块LCD1602驱动封装(上):如何为编程爱好者设计 ...
- [FPGA] 1、开发板使用和引脚连接
目录 1.注意事项 2.设备简介 3.引脚分配 注意事项: ① 插拔下载线时必须断电! ② Quartus II 软件和 NIOS 软件的版本必须一致,并安装在同一个目录下面,安装目录不要有中文和空格 ...
- js模版引擎handlebars.js实用教程——关于HTML编码
返回目录 <!DOCTYPE html> <html> <head> <META http-equiv=Content-Type content=" ...
- 初识jsonp
jsonp 全称是JSON with Padding,是为了解决跨域请求资源而产生的解决方案.很多时候我们需要在客户端获取服务器数据进行操作,一般我们会使用ajax+webservice做此事,但是如 ...
- String的length()和Array的length
String是个final修饰的最终类,不能被继承,String中属性都设置为private,方法为public,并不提供set方法,想要获得字符串的长度必须调用length()方法这个长度是确定的, ...