RLE压缩算法详解
from:http://data.biancheng.net/view/152.html
RLE压缩算法(下简称RLE算法)的基本思路是把数据按照线性序列分成两种情况:一种是连续的重复数据块,另一种是连续的不重复数据块。
RLE算法的原理就是用一个表示块数的属性加上一个数据块代表原来连续的若干块数据,从而达到节省存储空间的目的。一般RLE算法都选择数据块的长度为 1 字节,表示块数的诚性也用1字节表示,对于颜色数小于 256 色的图像文件或文本文件,块长度选择 1 字节是比较合适的。
连续重复数据的处理
RLE 算法有很多优化和改进的变种算法,这些算法对连续重复数据的处理方式基本上都是一样的。对于连续重复出现的数据,RLE算法一般用两字节表示原来连续的多字节重复数据。我们用一个例子更直观地说明 RLE 算法对这种情况的处理,假如原始数据有 5 字节的连续数据:
[data] [data] [data] [data] [data]
则压缩后的数据就包含块数和 [data] 两字节,其中 [data] 只存储了一次,节省了存储空间:
[5] [data]
需要注意的是,一般 RLE 算法都采用插入一个长度属性字节存储连续数据的重复次数,因此能够表达的扱大值就是 255 字节,如果连续的相同数据超过 255 字节时,就从第 255 字节处断开,将第 256 字节以及 256 字节后面的数裾当成新的数椐处理。
随着 RLE 算法采用的优化方式不同,这个长度属性字节所表达的意义也不同,对于本节给出的这种优化算法,长度属性字节的最高位被用来做一个标志位,只有 7 位用来表示长度。
连续非重复数据的处理
对于连续的非重复数据,RLE 算法有两种处理方法:
- 一种处理方法是将每个不重复的数据当作只重复一次的连续重复数据处理,在算法实现上就和处理连续重复数据一样;
- 另一种处理方法是不对数据进行任何处理,直接将原始数据作为压缩后的数据存储。
假如有以下 5 字节的连续非重复数据:
[datal] [data2] [data3] [data4] [data5]
按照第一种处理方法,最后的压缩数据就如下所示:
[1][datal] [1][data2] [1][data3] [1][data4] [1][data5]
如果按照第二种处理方法,最后的数据和原始数据一样:
[data1] [data2] [data3] [data4] [data5]
如果采用第一种方式处理连续非重复数据,则存在一个致命的问题,对连续出现的不重复数据,会因为插入太多块数属性字节而膨胀一倍,如果原始数据主要是随机的非重复数据,则采用这种方式不仅不能起到压缩数据的目的,反而起到恶化的作用。多数经过优化的 RLE 算法都会选择使用第二种方式处理连续非重复数据,但是这就引入了新问题,在 RLE 算法解码的时候,如何区分连续重复和非重复数据?
前面己经提到,如果把非重复数据当作独立的单次重复数据处理,反而会造成数据膨胀,但是如果把连续非重复数据也当成一组数据整理考虑呢?这是一个优化的思路,首先,给连续重复数据和连续非重复数据都附加一个表示长度的属性字节,并利用这个长度属性字 节的最高位来区分两种情况。
长度属性字节的最高位如果是 1,则表示后面紧跟的是个重复数据,需要重复的次数由长度属性字节的低 7 位(最大值是 127)表示。长度属性字节的最高位如果是 0,则表示后面紧跟的是非重复数据,长度也由长度属性字节的低 7 位表示。
采用这种优化方式,压缩后的数据非常有规律,两种类型的数据都从长度属性字节开始,除了标志位的不同,后跟的数据也不同。第一种情况后跟一个字节的重复数据,第二种情况后跟的是若干个字节的连续非重复数据。
算法实现
首先介绍一下数据压缩的编码过程如何实现。釆用前面给出的优化方式,编码算法不仅要能够识别连续重复数据和连续非重复数据两种情况,还要能够统计出两种情况下数据块的长度。
编码算法从数据的起始位置开始向后搜索,如果发现后面是重复数据且重复次数超过 2,则设置连续重复数据的标志并继续向后查找,直到找到第一个与之不相同的数据为止,将这个位置记为下次搜索的起始位置,根据位置差计算重复次数,最后长度属性字节以及一个字节的原始重复数据一起写入压缩数据;如果后面数据不是连续重复数据,则继续向后搜索查找连续重复数据,直到发现连续重复的数据且重复次数大于 2 为止,然后设置不重复数据标志,将新位置记为下次搜索的起始位置,最后将长度属性字节写入压缩数据并将原始数据逐字节复制到压缩数据。然后从上一步标记的新的搜索起始位开始,一直重复上面的过程,直到原始数据结束。
- int Rle_Encode(unsigned char *inbuf, int inSize, unsigned char *outbuf, int onuBufSize)
- {
- unsigned char *src = inbuf;
- int i;
- int encSize = 0;
- int srcLeft = inSize;
- while(srcLeft > 0)
- {
- int count = 0;
- if(IsRepetitionStart(src, srcLeft)) /*是否连续三个字节数据相同? */
- {
- if ((encSize + 2) > onuBufSize) /* 输出缓冲区空间不够了 */
- {
- return -1;
- }
- count = GetRepetitionCount(src, srcLeft);
- outbuf[encSize++] = count | 0x80;
- outbuf[encSize++] = *src;
- src += count;
- srcLeft -= count;
- }
- else
- {
- count = GetNonRepetitionCount(src, srcLeft);
- if ((encSize + count + 1) > onuBufSize) /* 输出缓冲区空间不够了 */
- {
- return -1;
- }
- outbuf[encSize++] = count;
- for(i = 0; i < count; i++) /*逐个复制这些数据*/
- {
- outbuf[encSize++] = *src++;;
- }
- srcLeft -= count;
- }
- }
- return encSize;
- }
Rle_Encode() 函数是 RLE 算法的实现,它通过调用 IsRepetitionStart() 函数判断从 src 开始的数据是否是连续重复数据:
- 如果是连续重复数据,则调用 GetRepetitionCount() 函数计算出连续重复数据的长度,将长度属性字节的最高位罝 1 并向输出缓冲区写入一个字节的重复数据。
- 如果不是连续重复数据,则调用 GetNonRepetitionCount() 函数计算连续非重复数据的长度,将长度属性字节的极高位罝 0 并向输出缓冲区复制连续的多个非重兌数据。
GetRepetitionCount() 函数和 GetNonRepetitionCount() 函数都比较简单,此处就不列出代码了。
根据算法要求,只有数裾重复出现两次以上才算作连续重复数据,因此 IsRepetitionStart() 函数检査连续的3字节是否是相同的数据,如果是则判定为出现连续重复数据。之所以要求至少要 3 字节的重复数据才判定为连续重复数据,是为了尽量优化对短重复数据间隔出现时的压缩效率。
举个例子,对于这样的数据“AABCCD”,如果不采用这个策略,最终的压缩数据应该是 [0x82][A][0x01][B][0x82][C][0x01][D],压缩后数据长度是 8 字节。如果采用这个策略,则上述数据就被认定为连续非重复数据局,最终被压缩为 [0x06][A][A][B][C][C][D],压缩后数据长度是 7 字节,这样的数据越长,效果越明显。
解压缩算法相对比较简单,因为两种情况下的压缩数据首部都是 1 字节的长度属性标识,只要根据这个标识判断如何处理就可以了。首先从压缩数据中取出 1 字节的长度属性标识,然后判断是连续重复数据的标识还是连续非重复数据的标识:
- 如果是连续重复数据,则将标识字节后面的数据重复复制 n 份写入输出缓冲区;
- 如果是连续非重复数据,则将标识字节后面的 n 个数据复制到输出缓冲区。n 的值是标识字节与 0x3F 做与操作后得到,因为标识字节低 7 位就是数据长度属性。
- int Rle_Decode(unsigned char *inbuf, int inSize, unsigned char *outbuf, int onuBufSize) {
- unsigned char *src = inbuf;
- int i;
- int decSize = 0;
- int count = 0;
- while(src < (inbuf + inSize))
- {
- unsigned char sign = *src++;
- int count = sign & 0x3F;
- if ((decSize + count) > onuBufSize) /* 输出缓冲区空间不够了 */
- {
- return -1;
- }
- if ((sign & 0x80) == 0x80) /* 连续重复数据标志 */
- {
- for(i = 0; i < count; i++)
- {
- outbuf[decSize++] = *src;
- }
- src++;
- }
- else
- {
- for(i = 0; i < count; i++)
- {
- outbuf[decSize++] = *src++;
- }
- }
- }
- return decSize;
- }
Rle_Decode() 函数是解压缩算法的实现代码,每组数据的第一字节是长度标识字节,其最高位是标识位,低 7 位是数据长度属性,根据标识位分别进行处理即可。
RLE压缩算法详解的更多相关文章
- Hive存储格式之RCFile详解,RCFile的过去现在和未来
我在整理Hive的存储格式和压缩格式,本来打算一篇发出来,结果其中一小节就有很多内容,于是打算写成Hive存储格式和压缩格式系列. 本节主要讲一下Hive存储格式最早的典型的列式存储格式RCFile. ...
- JPEG图像压缩算法流程详解
JPEG图像压缩算法流程详解 JPEG代表Joint Photographic Experts Group(联合图像专家小组).此团队创立于1986年,1992年发布了JPEG的标准而在1994年获得 ...
- PNG,JPEG,BMP,JIF图片格式详解及其对比
原文地址:http://blog.csdn.net/u012611878/article/details/52215985 图片格式详解 不知道大家有没有注意过网页里,手机里,平板里的图片,事实上,图 ...
- 【转】jpeg文件格式详解
JPEG(Joint Photographic Experts Group)是联合图像专家小组的英文缩写.它由国际电话与电报咨询委员会CCITT(The International Telegraph ...
- 【转】jpg文件格式详解
JPEG(Joint Photographic Experts Group)是联合图像专家小组的英文缩写.它由国际电话与电报咨询委员会CCITT(The International Telegraph ...
- BMP格式详解
BMP格式详解 BMP文件格式详解(BMP file format) BMP文件格式,又称为Bitmap(位图)或是DIB(Device-Independent Device,设备无关位图),是Win ...
- JPEG文件编/解码详解
JPEG文件编/解码详解(1) JPEG(Joint Photographic Experts Group)是联合图像专家小组的英文缩写.它由国际电话与电报咨询委员会CCITT(The Interna ...
- H264编码原理以及I帧、B和P帧详解, H264码流结构分析
H264码流结构分析 http://blog.csdn.net/chenchong_219/article/details/37990541 1.码流总体结构: h264的功能分为两层,视频编码层(V ...
- 关于IPB帧与恒定比特率、动态比特率的详解
之所以写这篇文章是因为有朋友对IPB帧的设置比较感兴趣,回复中说得比较简单,因此在这里详细的写一下,虽然说一般情况下我们很少去设置这个IPB帧,不过,如果真的学好了,并且清楚的了解了这个IPB帧的概念 ...
随机推荐
- Qt Gui 第一章~第二章
一.Qt启动 qmake -project; 创建xxx.pro qmake xxx.pro; 生成makefile文件 make:构建该程序,生成可执行文件 运行程序:windows:xxx:mac ...
- Java基本语法--程序流程控制
流程控制语句是用来控制程序中各语句执行顺序的语句,可以把语句组合成能完成一定功能的小逻辑模块.流程控制方式采用结构化程序设计中规定的三种基本流程结构,即:顺序结构.分支结构.循环结构.本篇博客主要是对 ...
- SpringMVC 源代码深度解析 IOC容器(Bean 解析、注册)
SpringMVC通过一个配置文件描述Bean以及Bean之间的依赖关系,利用Java的反射机制实例化Bean并建立Bean之间的依赖关系.IOC容器在完成这些底层工作的基础还提供了Bean的实例缓. ...
- matlab中的数组与矩阵
今天做图像处理时,看到一个矩阵的处理,简要谈谈下面几段代码: 首先是介绍矩阵(说明:在matlab中无是数组还是矩阵都是按列来存储的) 首先是一些特殊矩阵的建立 zeros(m,n)%建立全0矩阵 o ...
- hadoop搭建HA集群之后不能自动切换namenode
在搭好HA集群之后,想测试一下集群的高可用性,于是先把active的namenode给停掉: hadoop-daemon.sh stop namenode 或者直接kill掉该节点namenode的对 ...
- 编码 - 设置 win10 下 cmd 编码格式
概述 cmd 编码格式修改 背景 之前尝试过修改 gitbash(mingw) 的 Character Set 这次尝试修改一下 cmd 的编码格式 准备 os win10.1903 1. 查看 当前 ...
- 转载:android audio flinger
https://blog.csdn.net/innost/article/details/6142812 https://blog.csdn.net/zyuanyun/article/details/ ...
- vector 牛逼 +lower_bound+ upper_bound
vector 超级 日白 解决的问题空间问题,可以自由伸缩. 一下用法: 向量大小: vec.size(); 向量判空: vec.empty(); 末尾添加元素: vec.push_back(); / ...
- sql 应用记录
SELECT * FROM (select aa.*,bb.mentalvisitid, ' then '家庭访视' else '电话' end as BCSFXS ,bb.visitdate, ' ...
- SVN提交时没有写注释
会报错: Error: Commit blocked by pre-commit hook (exit code 1) with output: Error: [Commit failed]: Emp ...