作者:马健
邮箱:stronghorse_mj@hotmail.com发布:2006.07.16
更新:2006.07.20

事先声明:

  1. PDG文件是超星公司电子图书的专有格式,需要用超星公司的专用浏览器才能阅读。本文讨论PDG转PDF的方法,仅出于技术研究目的,并无意对超星公司的版权进行任何形式的侵犯,也不希望任何人用本文讨论的工具或方法从事侵权活动。如果需要浏览PDG电子书,请通过购买点卡等方式,以合法的途径获得。本文
    认为用户通过合法的手段获得PDG文件,只是由于希望能够在比超星浏览器更好、更方便的浏览器上阅读,并且不对转换出来的文件进行扩散的情况下,才需要将PDG文件转换成PDF文件。
  2. 本文所说PDG,是指最常见的纯图像格式PDG文件,不包括罕见的文本、PDF、HTML等格式的PDG文件。

对于标题所提问题,我的回答是:大多数情况下转换后文件长度应该相当,略有增加或减少,质量应该保持不变。如果文件长度、画面质量差很多,多半是用错了方法或软件。本文将说明理由。

注意在上面的回答中我使用了“大多数”等表示概率的词汇,因此在讨论答案之前,需要先对PDG文件格式进行分类,并估计每种PDG文件出现的可能性。

目前比较流行的分类方法是按照PDG文件第16字节分类,通常PDG文件格式检查软件都是按照这个字节的16进制报告文件类型,如00H、02H、03H、04H、05H、10H、11H、AAH、ACH、64H、66H等等。由于这种分类法分出来的类型较多(理论上有256种),所以通常也按字节高4位进行归类,简称0xH、1xH、AxH、6xH等。

这种分类方法可以表示出PDG文件的加密特征:

  • 00H是最早,也是最原始的PDG格式,其格式为:PDG文件头+原始图像数据流。原始图像数据流包括CCITT
    G4(黑白图像)、JPG(彩色/灰度)、DjVu(黑白/彩色/灰度)。在超星服务器上,这种格式的文件已经非常少见,但是由于这种格式阅读的时候不需要解密,因此阅读
    时的速度感觉比其它格式的要快,所以也有人用第三方软件自己将其它格式转换成00H格式。
  • 0xH是对00H的弱加密格式,通常02H、03H用来加密CCITT
    G4图像,04H加密JPG,05加密DjVu。顺便说一句,可能是为了尽量减小文件长度,超星在压制DjVu时,用的都是有损压缩,可能会对汉字笔划造成损伤,这也是为什么经常听到有人说05H不如02H清晰的原因之一。
  • 1xH是比0xH更强的加密,加密方法不再与原始图像格式对应,如11H可以加密CCITT G4,也可以加密JPG、DjVu。
  • AxH的加密强度比1xH更强,加密方法也不与原始图像格式对应。正版超星浏览器如果下载到AxH格式的PDG,会将其完全破坏后变成FFH格式的PDG。
  • 6xH是正版超星浏览器从服务器下载到PDG文件后在本地加密生成的文件。由于6xH加密使用了本地硬盘“指纹”,因此只能在下载的机器上看,换一台就不能看。

但是加密方法毕竟是超星自己的事,用这种分类方法往PDF格式上套未免有点难。所以我更愿意用另一种分类标准:超星浏览器自带的Pdg2控件的GetImageType方法的返回值。这个方法通常返回1、2、3,在Pdg2Pic中分别用T1、T2、T3表示,即Type1、Type2、Typ3的意思,分别对应三种图像:

  • T1:黑白图像,原始图像格式为CCITT G4或DjVu。
  • T2:灰度/彩色图像,原始图像格式为JPG或DjVu。可能超星觉得扫描时区别灰度、彩色太麻烦了,所以灰度图像一律按彩色存储,这
    也是国内扫描外包商的通常做法,但是对技术较真的客户一般会要求外包商举行区别。
  • T3:多层图像,底层黑白文字层通常用CCITT
    G4,上层插图用JPG。我猜测这种类型应该是在DjVu基础上发展出来的,符合“按需存储”的原则:对于重要的文字层使用无损压缩,对于相对不重要的插图则用有损压缩存储。

从出现的概率来说,这三种格式按从高到低排列依次是T1、T3、T2:

  • 最常见的格式还是T1,毕竟大多数书籍都是白纸黑字。
  • T3出现的概率比T1小,一般用于图文混排的插图页,或某些彩印书籍。
  • T2出现的概率最小,毕竟除了封面和某些特殊书籍外,整页都是图的情况在一本书里也不会有几页,而封面、封底还有很大一部分直接用JPG文件存储。

在转换成PDF时,正常情况下这三种格式与PDF中压缩算法的对应关系为:

  • T1:CCITT G4或JBig2。
  • T2:JPEG或JPEG 2000。
  • T3:这个比较复杂,取决于转换软件:可以转换成多层PDF,也可以将PDG中的所有层合并成一个图像再放入PDF。

如果T1原始图像是CCITT G4,转换成PDF的CCITT
G4后文件尺寸会略有膨胀,因为PDF文件本身要增加一些必要的格式信息;如果转换成PDF的JBig2,通常文件尺寸不会增加,只会减少,毕竟JBig2的压缩算法要比CCITT
G4更先进。

如果T1原始图像是DjVu,转换成PDF的CCITT
G4后文件无疑将会膨胀;转换成JBig2则取决于是有损JBig2还是无损JBig2。理论上说,DjVu对黑白图像的压缩能力与JBig2相当,但由于超星用的全是有损DjVu,因此转换成PDF时只有选有损JBig2才能保持二者尺寸
大致相当,选无损JBig2则会造成文件膨胀。由于有损压缩会对汉字笔划造成损伤,因此我宁愿文件长度膨胀,也不愿选择有损。

如果T2原始格式是JPG,转换结果取决于转换软件:如果转换软件能够直接从PDG文件中提取原始JPG数据流嵌入PDF,则PDF文件只会略有膨胀
,质量不变;如果转换软件非要把PDG先解码成BMP再压缩成JPG或JPEG
2000放到PDF里,文件长度可能增加也可能减小,取决于所选的压缩比,但是在缺省的压缩比下,质量下降是注定了的。

如果T2原始格式是DjVu,用于目前的PDF规范不支持DjVu(不排除将来会支持),因此只能将DjVu先解码成BMP再压缩成JPG或JPEG
2000放到PDF里,文件长度可能增加也可能减小,质量多半会下降。

对于T3,如果转换软件能够直接从PDG文件中提取原始JPG数据流嵌入PDF文件,并且用无损JBig2压缩原CCITT
G4图像,则PDF文件尺寸会减小,同时质量不变;如果转换软件非要把多层合并成一层,再压缩成JPG或JPEG
2000放到PDF里,通常文件长度会增加,质量会下降:JPG或JPEG 2000都不适合压缩文字图像。

综上所述,从原理上说,对于最常见的黑白PDG,转换成PDF后应该长度略有减少,质量保持不变;对于带插图的多层PDG,转换成PDF后应该长度略有减少,质量保持不变;对于纯图像页面的PDG,转换后长度可能略有增加而质量不变,也可能长度、质量都有较大变化,但是这种页面毕竟不多。

现在各位明白我在本文开始部分给出的回答的含义了吧?

在明白的同时,我相信也会有人合理地引伸出另外一个问题:为什么现在大家看到从PDG转出来的PDF,会和原始PDG差那么多?

我认为这方面最大的罪魁祸首就是广为流传的“打印大法”:将PDG文件直接从超星浏览器打印到虚拟PDF打印机。这种方法的制约因素我已经在《PDG转图像、PDF的若干方法》一文中加以说明,对转换出来的PDF举行分析所需的工具和方法,也在《图像转PDF的问题、方法及题外话》一文中详细说明,喜欢较真的人不妨自己验证,这里我只说我的结论:只要用打印的方法,不论如何破解、如何发现新的突破方法,打出来的PDF文件膨胀、质量下降那是注定了的,想改都难,更何况还会受到软件方面的种种限制
,所以奉劝各位还是趁早放弃。

另外一种所谓“利用中间BMP”的转换方法也会产生问题:有人先用BooX
Viewer或其它软件将PDG转换成BMP,再用Acrobat或其它软件将BMP转换成PDF。这种方法只能将T1图像无损转换成PDF;对于T2、T3,由于很难将BMP图像无损存入PDF(那样尺寸膨胀太过厉害),只能再压缩成JPG或JPEG
2000后存入PDF,因此质量下降、尺寸膨胀等问题是免不了的。

那么什么样的方法才是正确的转换方法呢?

我的回答是:条条大道通罗马,只要抛弃表层皮毛的束缚,直接深入到文件格式内部,就可以找到好的方法。就我自己来说,最常用的组合是Pdg2Pic+FreePic2Pdf:

    • 先用Pdg2Pic将PDG直接解码成常规图像文件。能够将PDG转图像的软件不少,但是Pdg2Pic对除彩色/灰度DjVu外的图像都能无损转换,尤其是对多层PDG的无损分解,目前是独一无二的。
    • 再用FreePic2Pdf将Pdg2Pic的结果合并成PDF,黑白图像用缺省的Jbig2无损就好。

PDG转PDF注定会文件膨胀、质量下降吗?的更多相关文章

  1. 文本PDG转PDF

    作者:马健邮箱:stronghorse_mj@hotmail.com发布:2008.08.03更新:2008.08.24 补充说明:此文成文较早,当时文本PDG如果不想用官方浏览器SSREADER看, ...

  2. Asp.net实现直接在浏览器预览Word、Excel、PDF、Txt文件(附源码)

    功能说明 输入文件路径,在浏览器输出文件预览信息,经测试极速(Chrome).IE9.Firefox通过 分类文件及代码说明  DemoFiles 存放可测试文件 Default.aspx  启动页 ...

  3. 使用 PSD Validator 在线校验 PSD 文件的质量

     PSD Validator 可以帮助你在线校验 PSD 文件的质量,使用的规则来自 Photoshop Etiquette.Photoshop Etiquette 整理了 PSD 文件的规范,例如删 ...

  4. 小程序中搜索文件,阅览pdf,分享文件链接,评论表情符号

    小程序中搜索文件,阅览pdf,分享文件链接,评论表情符号 https://blog.csdn.net/hotqin888/article/details/84111389 小程序中打开网页和pdf h ...

  5. [IT学习]从网上获取pdf制作vce文件

    考过IT证书的朋友,都知道什么是vce文件.如果仅仅找到了pdf版本的文件,该如何转为vce文件呢? 具体的步骤如下: 1.到如下网址下载examformatter,http://www.examco ...

  6. ABBYY PDF Transformer+从文件选项中创建PDF文档的教程

    可使用OCR文字识别软件ABBYY PDF Transformer+从Microsoft Word.Microsoft Excel.Microsoft PowerPoint.HTML.RTF.Micr ...

  7. Python操作PDF与Tiff文件

    1.PDF文件的合并与拆分 pypdf http://www.douban.com/note/455252403/ http://www.redicecn.com/html/Python/201301 ...

  8. yii2 生成PDF格式的文件

    1 .先把mpdf-development.zip解压的类文件夹放到vendor目录里面,重命名为mpdf 2 .在vendor/composer/autoload_namespaces.php里面添 ...

  9. C#对word、excel、pdf等格式文件的操作总结

    一.word 这是我以前工作时写过的一个业务逻辑处理类,里面有不少文件操作的方法,这里主要关注一下C#对word的操作.里面的方法可以直接拿出来用,主要是通过word的dot模版来进行创建word.替 ...

随机推荐

  1. ECMAScript 2016(ES7) 知多少

    ECMAScript 2016(ES7) 知多少 1. 数组方法 Array.prototype.includes(value : any) : boolean 2. 幂运算符 x ** y 扩展阅读 ...

  2. 根据VM的TAG开停机

    公有云一个非常大的优势,就是可以根据需求进行开停机.由于计费是按时进行的,从而实现节省成本. Azure上用脚本按时开停机已经有很多部署的案例.本文将介绍采用VM Tag中规定的时间进行开停机的脚本. ...

  3. 蓝桥杯 算法训练 ALGO-141 P1102

    算法训练 P1102   时间限制:1.0s   内存限制:256.0MB 定义一个学生结构体类型student,包括4个字段,姓名.性别.年龄和成绩.然后在主函数中定义一个结构体数组(长度不超过10 ...

  4. hihoCoder#1079(线段树+坐标离散化)

    时间限制:10000ms 单点时限:1000ms 内存限制:256MB 描述 小Hi和小Ho在回国之后,重新过起了朝7晚5的学生生活,当然了,他们还是在一直学习着各种算法~ 这天小Hi和小Ho所在的学 ...

  5. Mysql 关键字-保留字

    ADD ALL ALTER ANALYZE AND AS ASC ASENSITIVE BEFORE BETWEEN BIGINT BINARY BLOB BOTH BY CALL CASCADE C ...

  6. Disconf web管理端安装

    1.环境配置配置java.maven环境,并安装mysql,reids,zookeeeper,Nginx2.下载disconf下载https://codeload.github.com/knightl ...

  7. DCloud:目录

    ylbtech-DCloud:目录 1.返回顶部 1.5+ App开发入门指南 http://ask.dcloud.net.cn/article/89 2.   3. 2.返回顶部   3.返回顶部 ...

  8. Oracle 11g R2(11.2.0.4) RAC 数据文件路径错误解决--ORA-01157 ORA-01110: 数据文件

    Oracle 11g R2(11.2.0.1) RAC  数据文件路径错误解决--ORA-01157 ORA-01110: 数据文件 oracle 11g R2(11.2.0.4) rac--scan ...

  9. socket关闭

    首先应该了解win32 api closesocket,这里只说msdn文档中叙述不够清晰的地方. 首先说缺省情况:l_onoff为0,closesocket立刻返回,但底层依然在持续发包,并且试图优 ...

  10. 2014.10.1 Spy找对话框

    IntPtr Diaw =FindWindow("#32770","Adobe Acrobat" );