LZ78编码

LZ78算法，建立词典的算法。

LZ78的编码思想：

不断地从字符流中提取新的缀-符串(String)，通俗地理解为新"词条"，然后用"代号"也就是码字(Code word)表示这个"词条"。

对字符流的编码就变成了用码字(Code word)去替换字符流(Charstream)，生成码字流(Codestream)，从而达到压缩数据的目的。

几个约定：

字符流(Charstream)：要被编码的数据序列。
字符(Character)：字符流中的基本数据单元。
前缀(Prefix)：在一个字符之前的字符序列。
缀-符串(String)：前缀＋字符。
码字(Code word)：编码以后在码字流中的基本数据单元，代表词典中的一串字符
码字流(Codestream)：码字和字符组成的序列，是编码器的输出
词典(Dictionary)：缀-符串表。按照词典中的索引号对每条缀-符串(String)指定一个码字(Code word)
当前前缀(Current prefix)：在编码算法中使用，指当前正在处理的前缀，用符号P表示
当前字符(Current character)：在编码算法中使用，指当前前缀之后的字符，用符号Char表示。
当前码字(Current code word)：在译码算法中使用，指当前处理的码字，用W表示当前码字，String.W表示当前码字的缀-符串。

编码算法步骤：

步骤1：在开始时，词典和当前前缀P 都是空的。

步骤2：当前字符Char :=字符流中的下一个字符。

步骤3：判断P+Char是否在词典中：

(1) 如果"是"：用Char扩展P，让P := P+Char ；

(2) 如果"否"：① 输出与当前前缀P相对应的码字和当前字符Char；

② 把字符串P+Char 添加到词典中。③ 令P :=空值。

(3) 判断字符流中是否还有字符需要编码

① 如果"是"：返回到步骤2。

② 如果"否"：若当前前缀P不空，输出相应于当前前缀P的码字，结束编码。

解码算法步骤：

步骤1：在开始时词典为空；

步骤2：当前码字W:= 码字流中的下一个码字

步骤3：当前字符Char:=紧随码字之后的字符

步骤4：把当前码字的缀-符串（string.W）输出到字符流，然后输出字符Char

步骤5：把string.W + Char添加到词典中

步骤6：判断码字流中是否还有码字要译码，

（1）如果有，返回步骤2 （2）如果没有，则结束

代码实现（C#）：

/// <summary>
/// LZ78编码所需词典
/// </summary>
public struct Dictionary
{
public int id;
public string context;
public Dictionary(int id, string str)
{
this.id = id;
this.context = str;
}
}

/// <summary>
/// 编码器类
/// </summary>
public static class Encoder
{
/// <summary>
/// 词典
/// </summary>
static List<Dictionary> D = new List<Dictionary>();
/// <summary>
/// 在词典中查找相应串
/// </summary>
/// <param name="item"></param>
/// <param name="D"></param>
/// <returns></returns>
static bool Find(string item, List<Dictionary> D)
{
foreach (Dictionary d in D)
if (d.context == item)
return true;
return false;
}
/// <summary>
/// 根据词典条目内容查找相应编号
/// </summary>
/// <param name="item"></param>
/// <param name="D"></param>
/// <returns></returns>
static int GetDicID(string item, List<Dictionary> D)
{
foreach (Dictionary d in D)
if (d.context == item)
return d.id;
return 0;
}
/// <summary>
/// 将一个条目加入词典
/// </summary>
/// <param name="item"></param>
/// <param name="D"></param>
static void AddToDic(string item, List<Dictionary> D)
{
int maxID;
if (D.Count == 0)
maxID = 0;
else
maxID = D.Last().id;
D.Add(new Dictionary(maxID + 1, item));
}
/// <summary>
/// 显示词典
/// </summary>
public static void ShowDictionary()
{
Console.WriteLine("Dictionary:");
foreach (Dictionary d in D)
{
Console.WriteLine("<{0},{1}>", d.id, d.context);
}
}
/// <summary>
/// 执行LZ78编码算法
/// </summary>
/// <param name="str"></param>
public static void Execute(string str)
{
StringBuilder P = new StringBuilder();
char CHAR;
P.Clear();
foreach (char c in str)
{
CHAR = c;
if (Find((P.ToString() + CHAR.ToString()), D))
P.Append(CHAR);
else
{
Console.Write("({0},{1})", GetDicID(P.ToString(), D), c);
AddToDic(P.ToString() + c.ToString(), D);
P.Clear();
}
}
if (P.ToString() != "")
Console.Write("({0},{1})", GetDicID(P.ToString(), D), "/");
Console.WriteLine();
}
}

/// <summary>
/// 解码器类
/// </summary>
public static class Decoder
{
/// <summary>
/// 内部类：将码字字符串转换为编码数组
/// </summary>
struct Codes
{
public int id;
public char code;
public Codes(int id, char code)
{
this.id = id;
this.code = code;
}
}
/// <summary>
/// 词典
/// </summary>
static List<Dictionary> D = new List<Dictionary>();
/// <summary>
/// 码字流，从字符串中获取
/// </summary>
static List<Codes> CodeStream = new List<Codes>();
/// <summary>
/// 将码字串变为码字流
/// </summary>
/// <param name="str"></param>
static void BuildCodes(string str)
{
/******************
* stauts 定义:
* 0: 开始/结束状态
* 1: 逗号之前
* 2: 逗号之后
******************/
int status = 0;
int id = 0;
char code = (char)0;
string number = "";
foreach (char c in str)
{
if (c == '(')
status = 1;
else if (status == 1 && c != ',')
number += c;
else if (c == ',')
{
status = 2;
id = Convert.ToInt32(number);
number = "";
}
else if (status == 2)
{
code = c;
status = 0;
}
else if (c == ')')
CodeStream.Add(new Codes(id, code));
}
}
/// <summary>
/// 将一个条目加入词典
/// </summary>
/// <param name="item"></param>
/// <param name="D"></param>
static void AddToDic(string item, List<Dictionary> D)
{
int maxID;
if (D.Count == 0)
maxID = 0;
else
maxID = D.Last().id;
D.Add(new Dictionary(maxID + 1, item));
}
/// <summary>
/// 根据词典序号找出词典内容
/// </summary>
/// <param name="id"></param>
/// <param name="D"></param>
/// <returns></returns>
static string GetContext(int id, List<Dictionary> D)
{
foreach (Dictionary d in D)
{
if (d.id == id)
return d.context;
}
return string.Empty;
}
/// <summary>
/// 执行LZ78译码算法
/// </summary>
/// <param name="str"></param>
public static void Execute(string str)
{
int W;
char CHAR;
string original;
BuildCodes(str);
foreach (Codes c in CodeStream)
{
W = c.id;
if (c.code != '/')
CHAR = c.code;
else CHAR = (char)0;
if (W == 0)
{
Console.Write(CHAR);
AddToDic(CHAR.ToString(), D);
}
else
{
original = GetContext(W, D);
Console.Write(original + CHAR.ToString());
AddToDic(original + CHAR.ToString(), D);
}
}
Console.WriteLine();
}
}

执行效果（主界面程序代码省略）：

可见算法执行的结果是完全正确的。

源码下载：http://files.cnblogs.com/ryuasuka/LZ78.rar

压缩算法实现之LZ78的更多相关文章

ZIP压缩算法详细分析及解压实例解释
最近自己实现了一个ZIP压缩数据的解压程序,觉得有必要把ZIP压缩格式进行一下详细总结,数据压缩是一门通信原理和计算机科学都会涉及到的学科,在通信原理中,一般称为信源编码,在计算机科学里,一般称为数据 ...
【数据压缩】LZ78算法原理及实现
在提出基于滑动窗口的LZ77算法后,两位大神Jacob Ziv与Abraham Lempel [1]于1978年又提出了LZ78算法:与LZ77算法不同的是LZ78算法使用树状词典维护历史字符串. [ ...
速度之王 — LZ4压缩算法（一）
LZ4 (Extremely Fast Compression algorithm) 项目:http://code.google.com/p/lz4/ 作者:Yann Collet 本文作者:zhan ...
为什么倒排索引不采用zlib这样的字典压缩算法——因为没法直接使用啊
看了下压缩算法的发展历史,根据倒排索引的数据结构特点,个人认为zstd不适合做倒排索引压缩,举例说明下: 假设有一份文档倒排列表为:[300, 302, 303, 332],对于这组倒排数据,是没法* ...
LZ77压缩算法编码原理详解(结合图片和简单代码)
前言 LZ77算法是无损压缩算法,由以色列人Abraham Lempel发表于1977年.LZ77是典型的基于字典的压缩算法,现在很多压缩技术都是基于LZ77.鉴于其在数据压缩领域的地位,本文将结合图 ...
Java数据结构之对称矩阵的压缩算法---
特殊矩阵特殊矩阵是指这样一类矩阵,其中有许多值相同的元素或有许多零元素,且值相同的元素或零元素的分布有一定规律.一般采用二维数组来存储矩阵元素.但是,对于特殊矩阵,可以通过找出矩阵中所有值相同元素的 ...
HBase中的压缩算法比较 GZIP、LZO、Zippy、Snappy [转]
网址: http://www.cnblogs.com/panfeng412/archive/2012/12/24/applications-scenario-summary-of-compressio ...
LZW压缩算法
转载自http://www.cnblogs.com/jillzhang/archive/2006/11/06/551298.html 记录此处仅自己供学习之用 lzw解压缩算法: 用单个字符初始化字符 ...
atitit.压缩算法 ZLib ,gzip ,zip 最佳实践 java .net php
atitit.压缩算法 ZLib ,gzip ,zip 最佳实践 java .net php 1. 压缩算法的归类::: 纯算法,带归档算法 1 2. zlib(适合字符串压缩) 1 3. gz ...

随机推荐

《TCP/IP 详解卷一》读书笔记-----IP静态路由
1.主机中的路由表只能被守护进程routing daemon或者“redirect”类型的ICMP报文所更新. 2.在根据路由表进行路由选择时,判断的优先级从高到低依次为1)表中存在与目的IP完全匹配 ...
Git版本控制工具（一）----git的安装及创建版本库
[声明] 欢迎转载,但请保留文章原始出处→_→ 生命壹号:http://www.cnblogs.com/smyhvae/ 文章来源:http://www.cnblogs.com/smyhvae/p/ ...
js原生选项卡（包含移动端无缝选项卡）三
今天分享下移动端原生js的无缝轮播图: 移动端尽量减少使用DOM操作来频繁的浪费移动端设备的性能,所以这个无缝轮播图更多的使用了transition和transform,无缝的思想和昨天分享的PC端的 ...
smarty初始化文件
为了smarty初始化文件能方便其他目录下的脚步包含使用,应该将初始化文件里的引入smarty类及其他路径设置为全局路径,而不是相对路径另外,如果模板里有文件的路径的引用,一定要是相对PHP脚本文件 ...
U5398 改数(num)
U5398 改数(num) 5通过 28提交题目提供者52zyz 标签难度尚无评定提交最新讨论暂时没有讨论题目背景又是一年NOIP,科学馆的五楼:“我们看下这道题,我们来模拟一下…2,3 ...
【转】【C#】C#性能优化总结
1. C#语言方面 1.1 垃圾回收垃圾回收解放了手工管理对象的工作,提高了程序的健壮性,但副作用就是程序代码可能对于对象创建变得随意. 1.1.1 避免不必要的对象创 ...
【原创】有关Silverlight中“DataGrid中级联动态绑定父/子ComboBox ”的示例。
尝试了很多种方案,由于Datagrid动态生成的每行父子comboBox的Name的不确定性,给父ComboBox绑定事件中获取子ComboBox很难根据Name获取到. 花了不少时间和公司同事商讨 ...
公钥（Public Key）与私钥（Private Key）
公钥(Public Key)与私钥(Private Key)是通过一种算法得到的一个密钥对(即一个公钥和一个私钥),公钥是密钥对中公开的部分,私钥则是非公开的部分.公钥通常用于加密会话密钥.验证数字签 ...
DWZ (JUI) 教程 navTab 刷新分析
navTab的刷新在doc文件里也有说明首先在form表单里指定好回调函数 * <form action="/user.do?method=save" onsubmit= ...
Android中对JSONArray数组的指定项进行删除，更新。
首先假设有这么一个JSONArray JSONArray Array1;JSONArray ITEM = new JSONArray(); name为你获取要删除的字段名称,IETM就是你删除后得到的 ...

压缩算法实现之LZ78