校对双层PDF中的隐藏文本】的更多相关文章

作者:马健邮箱:stronghorse_mj@hotmail.com发布:2012.06.11 目录一.背景二.能够校对的PDF需要满足的条件三.校对工具的选择四.校对过程五.延伸讨论 事先声明:本文所谈校对方法仅适用于DjVuToy.FreePic2Pdf.Pdg2Pic所生成的双层PDF,对其他软件生成的双层PDF无效,不喜勿进. 一.背景 随着在DjVuToy.FreePic2Pdf.Pdg2Pic中均支持双层PDF,一个 必然要问的问题是:如何对双层PDF进行校对?原因无他,双层PDF都…
作者:马健邮箱:stronghorse_mj@hotmail.com发布:2012.06.11 目录一.背景二.DjVu中的隐藏文本三.PDF中的隐藏文本 一.背景 目前对于扫描电子文档,网上比较流行的格式是PDF和DjVu.为了便于对扫描文档进行文字检索.复制,这两种格式均允许在扫描图像层之外,再加一层隐藏文字层,成为通常所说的“双层PDF”和“双层DjVu”. 对于双层PDF和DjVu来说,阅读者所直接看到的都是原汁原味的扫描页面,保留了原始书籍页面的全部内容和版式,但当阅读者用鼠标在页面上…
Js控制显示.隐藏文本框中的密码,也可称为是一款小型的JavaScript星号密码破解器,点击会显示出密码类型的文本框中的真实信息,再次点击则还原,程序 主要是获取HTML元素对象,然后强制更改元素属性,将文本框的类型在Text与Password之间切换. <!DOCTYPE HTML><html><head><meta charset="utf-8"><title>显示.隐藏密码</title><style…
1.PDFBox的IKVM版本:据我所知,目前只有PDFBox的IKVM版本能比较好地从PDF中提取文本,PDFBOX更多信息请访问http://www.pdbox.org,关于其应用实例,可以参考CodeProject上的:http://www.codeproject.com/csharp/pdf2text.asp;2.使用Acrobat的SDK(这个价格可不便宜):3.XPDF:如果条件允许可以考虑使用XPDF的PDFToText,XPDF是用C语言编写的PDF解析库,并提供多个工具,开放源…
高亮的文本有助于阅读者快速有效地获取文章关键信息.在PDF文件中,对文章的不同文本,关键词.句等进行不同颜色的文本高亮操作,可以使阅读者在阅读过程中有效地区分不同高亮颜色文本的意义.在下面的示例中,我使用Free Spire.PDF for .NET来进行操作(https://www.e-iceblue.cn/Downloads/Free-Spire-Doc-NET.html),可以参考以下步骤: 原文件如下: 步骤一:初始化并加载一个PDF文档实例 PdfDocument pdf = new…
itext没有提供直接替换PDF文本的接口,我们可以通过在原有的文本区域覆盖一个遮挡层,再在上面加上文本来实现. 所需jar包: 1.先在PDF需要替换的位置覆盖一个白色遮挡层(颜色可根据PDF文字背景色自行定义) import com.itextpdf.text.BaseColor; import com.itextpdf.text.DocumentException; import com.itextpdf.text.pdf.PdfContentByte; import com.itextp…
直接说问题,itext没有直接提供替换PDF中文本的接口(查看资料得到的结论是PDF不支持这种操作),不过存在解决思路:在需要替换的文本上覆盖新的文本.按照这个思路我们需要解决以下几个问题: itext怎样增加白色底的覆盖层 找到覆盖层的位置(左顶点的位置)和高度与宽带 这样做的目的是什么了?也告诉下大家,比如:现在要你将业务数据导出成PDF存档,且PDF的模板有现成的.对我们写程序的来说,变化的只是部分数据,假如我们可以直接替换里面的数据,是不是可以节省我们的开发时间. 1.itext怎样增加…
概述 PDF中的文本域可以通过设置不同格式,用于显示数字.货币.日期.时间.邮政编码.电话号码和社保号等等.Adobe Acrobat提供了许多固定的JavaScripts用来设置和验证文本域的格式,如:AFNumber_Format(2, 0, 0, 0, "$", true)和AFNumber_Keystroke(2, 0, 0, 0, "$", true).Format后缀的script是用来设置文本域显示的格式,而Keystroke后缀的script是用来验…
我们接触到的很多文档资料都是以pdf格式存在的,比如:论文,技术文档,标准文件,书籍等.pdf格式使得用机器从中提取信息格外困难. 为了解决这个问题,我找到了几种解决方案,最后选择了python上的pdfplumber库,安装和使用都相对比较方便,效果也还不错,所以下面介绍这个库的安装与使用. 安装我的电脑配置环境: Win10+python3.6 和许多库一样,其基本安装只需要pip就可以了. pip install pdfplumber 不过本库还提供了图形Debug功能,可以获得PDF页面…
比较原始图像数据和PDF中的图像数据,结果见表1.1.表1.1中各种“解码器”的解释见本文后续的“PDF支持的图像格式”部分,“PDF中的图像数据”各栏中的数据来自开源的PdfView.如果您有兴趣查看PDF文件内部细节,建议用UltraEdit-32,仅看PDF文件结构 用PdfView足矣.表1.1 从ACDSEE打印图像到Acrobat PDF虚拟打印的结果 原始图像 PDF中的图像数据 序号 说明 宽×长(象素) 图像解码器 文件长度(字节) PDF解码器 BitsPerComponen…