java使用itex读取pdf，并搜索关键字，为其盖章

导读：近期要做一个根据关键字定位pdf的盖章位置的相关需求，其中关键字可配置多个（包含pdf文档中可能不存在的关键字），当页面显示盖章完成时，打开pdf显示已经损坏。
排查后发现，当itext搜索的关键字在pdf文档中不存在时，就已经将结果返回到前台界面，这时itex读取的流还未关闭，导致pdf读取未结束，pdf文档才被损坏。
下面是读取pdf的操作，记录一下：
所需包： itext-2.06.jar itext-asian,jar itextpdf-5.4.0.jar

 /****搜索关键字操作：****/

   /*sourcePDF: pdf的文档路径

   splitParentkeyValues[i]:关键字，其中对关键字进行特殊符号的过滤，不然会导致后面的匹配结果有误。*/

   matches = MatchItemUtil.matchPage(sourcePDF, splitParentkeyValues[i]);

 /*找出关键字后，将要盖章的图片准确定位到关键字周围，也可以采用坐标的方式**/

 MatchItem matchItem  = new MatchItem();

 int pageNum = matches.get(j).getPageNum();

 float pageWidth = reader.getPageSize(pageNum).getWidth();

 float pageHeight = reader.getPageSize(pageNum).getHeight();

 matchItem.setX(matches.get(j).getX()-splitParentkeyValues.length * 20);

 matchItem.setY(matches.get(j).getY() - 150 / 1.527731f);

 img.setAbsolutePosition(matchItem.getX(), matchItem.getY());// 位置

 PdfContentByte over = stamp.getOverContent(pageNum);

 over.addImage(img);

1. //根据关键字和pdf路径，全文搜索关键字

 /**

 查找所有

 @param fileName 文件路径

 @param keyword 关键词

 @return

 @throws Exception

 */

 public static List matchPage(String fileName,String keyword) throws Exception {

 List items = new ArrayList();

 PdfReader reader = new PdfReader(fileName);

 int pageSize = reader.getNumberOfPages();

 for(int page = 1;page <= pageSize;page++){

 items.addAll(matchPage(reader,page,keyword));

 }

 return items;

 }

2. 根据关键字、文档路径、pdf页数寻找特定的文件内容

 /**

 在文件中寻找特定的文字内容

 @param reader

 @param pageNumber

 @param keyword

 @return

 @throws Exception

 */

 public static List matchPage(PdfReader reader, Integer pageNumber,String keyword) throws Exception {

 KeyWordPositionListener renderListener = new KeyWordPositionListener();

 renderListener.setKeyword(keyword);

 PdfReaderContentParser parse = new PdfReaderContentParser(reader);

 Rectangle rectangle = reader.getPageSize(pageNumber);

 renderListener.setPageNumber(pageNumber);

 renderListener.setCurPageSize(rectangle);

 parse.processContent(pageNumber, renderListener);

 return findKeywordItems(renderListener,keyword);

 }

3. 找到匹配的关键词块

/**

找到匹配的关键词块

@param renderListener

@param keyword

@return

*/

public static List findKeywordItems(KeyWordPositionListener renderListener,String keyword){

//先判断本页中是否存在关键词

List allItems = renderListener.getAllItems();//所有块LIST

StringBuffer sbtemp = new StringBuffer(“”);

for(MatchItem item : allItems){//将一页中所有的块内容连接起来组成一个字符串。

sbtemp.append(item.getContent());

}

if(sbtemp.toString().indexOf(keyword) == -1){//一页组成的字符串没有关键词，直接return

return renderListener.getMatches();

}

//第一种情况：关键词与块内容完全匹配的项

List matches = renderListener.getMatches();

//第二种情况：多个块内容拼成一个关键词，则一个一个来匹配，组装成一个关键词

sbtemp = new StringBuffer(“”);

List tempItems = new ArrayList();

for(MatchItem item : allItems){

//1，关键词中存在某块 2，拼装的连续的块=关键词 3，避开某个块完全匹配关键词

//关键词 中国移动 而块为 中 ，国，移动

//关键词 中华人民 而块为中，华人民共和国 这种情况解决不了，也不允许存在

if(keyword.indexOf(item.getContent()) != -1 && !keyword.equals(item.getContent())){

tempItems.add(item);

sbtemp.append(item.getContent());

if(keyword.indexOf(sbtemp.toString()) == -1){//如果暂存的字符串和关键词 不再匹配时

sbtemp = new StringBuffer(item.getContent());

tempItems.clear();

tempItems.add(item);

}

if(sbtemp.toString().equalsIgnoreCase(keyword)){//暂存的字符串正好匹配到关键词时

MatchItem tmpitem = getRightItem(tempItems, keyword);

if(tmpitem != null){

matches.add(tmpitem);//得到匹配的项

}

sbtemp = new StringBuffer(“”);//清空暂存的字符串

tempItems.clear();//清空暂存的LIST

continue;//继续查找

}

}else{//如果找不到则清空

sbtemp = new StringBuffer(“”);

tempItems.clear();

}

}

//第三种情况：关键词存在块中

for(MatchItem item : allItems){

if(item.getContent().indexOf(keyword) != -1 && !keyword.equals(item.getContent())){

matches.add(item);

}

}

return matches;

}

public static MatchItem getRightItem(List<MatchItem> tempItems,String keyword){

for(MatchItem item:tempItems){

　　　　if(keyword.indexOf(item.getContent()) != -1 && !keyword.equals(item.getContent())){

　　　　　　return item;

　　　　}

　　} return null;

}

4. KeyWordPositionListener用来匹配pdf的关键词

import java.util.ArrayList;

import java.util.List;

import org.apache.log4j.Logger;

import org.drools.util.StringUtils;

import com.itextpdf.awt.geom.Rectangle2D;

import com.itextpdf.text.Rectangle;

import com.itextpdf.text.pdf.parser.ImageRenderInfo;

import com.itextpdf.text.pdf.parser.RenderListener;

import com.itextpdf.text.pdf.parser.TextRenderInfo;

public class KeyWordPositionListener implements RenderListener {

private static Logger logger = Logger.getLogger(KeyWordPositionListener.class);

private List<MatchItem> matches = new ArrayList<MatchItem>();

private List<MatchItem> allItems = new ArrayList<MatchItem>();

private Rectangle curPageSize;

/**

 * 匹配的关键字

 */

private String keyword;

/**

 * 匹配的当前页

 */

private Integer pageNumber;

public void beginTextBlock() {

    //do nothing

}

public void renderText(TextRenderInfo renderInfo) {

    String content = renderInfo.getText();

    content = content.replace("<", "").replace("《", "").replace("(", "").replace("（", "").replace("\"", "").replace("'", "")

                     .replace(">", "").replace("》", "").replace(")", "").replace("）", "").replace("、", "").replace(".", "")

                     .replace("：", "").replace(":", "").replace(" ", "");

    Rectangle2D.Float textRectangle = renderInfo.getDescentLine().getBoundingRectange();

    MatchItem item = new MatchItem();

    item.setContent(content);

    item.setPageNum(pageNumber);

    item.setPageWidth(curPageSize.getWidth());

    item.setPageHeight(curPageSize.getHeight());

    item.setX((float)textRectangle.getX());

    item.setY((float)textRectangle.getY());

    if(!StringUtils.isEmpty(content)){

        if(content.equalsIgnoreCase(keyword)) {

            matches.add(item);

        }

    }else{

        item.setContent("空字符串");

    }

    allItems.add(item);//先保存所有的项

}

public void endTextBlock() {

    //do nothing

}

public void renderImage(ImageRenderInfo renderInfo) {

    //do nothing

}

/**

 * 设置需要匹配的当前页

 * @param pageNumber

 */

public void setPageNumber(Integer pageNumber) {

    this.pageNumber = pageNumber;

}

/**

 * 设置需要匹配的关键字，忽略大小写

 * @param keyword

 */

public void setKeyword(String keyword) {

    this.keyword = keyword;

}

/**

 * 返回匹配的结果列表

 * @return

 */

public List<MatchItem> getMatches() {

    return matches;

}

void setCurPageSize(Rectangle rect) {

    this.curPageSize = rect;

}

public List<MatchItem> getAllItems() {

    return allItems;

}

public void setAllItems(List<MatchItem> allItems) {

    this.allItems = allItems;

}

}

5. 用来保存关键字新建的对象

public class MatchItem {

private Integer pageNum;

private Float x;

private Float y;

private Float pageWidth;

private Float pageHeight;

private String content;

public Integer getPageNum() {

    return pageNum;

}

public void setPageNum(Integer pageNum) {

    this.pageNum = pageNum;

}

public Float getX() {

    return x;

}

public void setX(Float x) {

    this.x = x;

}

public Float getY() {

    return y;

}

public void setY(Float y) {

    this.y = y;

}

public Float getPageWidth() {

    return pageWidth;

}

public void setPageWidth(Float pageWidth) {

    this.pageWidth = pageWidth;

}

public Float getPageHeight() {

    return pageHeight;

}

public void setPageHeight(Float pageHeight) {

    this.pageHeight = pageHeight;

}

public String getContent() {

    return content;

}

public void setContent(String content) {

    this.content = content;

}

public String toString() {

    return "MatchItem [pageNum=" + pageNum + ", x=" + x + ", y=" + y

            + ", pageWidth=" + pageWidth + ", pageHeight=" + pageHeight

            + ", content=" + content + "]";

}

}

java使用itex读取pdf，并搜索关键字，为其盖章的更多相关文章

Java 读取PDF中的文本和图片
本文将介绍通过Java程序来读取PDF文档中的文本和图片的方法.分别调用方法extractText()和extractImages()来读取. 使用工具:Free Spire.PDF for Ja ...
Java 读取PDF中的表格
一.概述本文以Java示例展示读取PDF中的表格的方法.这里导入Spire.PDF for Javah中的jar包,并使用其提供的相关及方法来实现获取表格中的文本内容.下表中整理了本次代码使用到的主 ...
java操作office和pdf文件java读取word，excel和pdf文档内容
在平常应用程序中,对office和pdf文档进行读取数据是比较常见的功能,尤其在很多web应用程序中.所以今天我们就简单来看一下Java对word.excel.pdf文件的读取.本篇博客只是讲解简单应 ...
java读取pdf总结
第三方软件 1.pdfbox PDFBox 0.7.3.PDFBox是一个开源的对pdf文件进行操作的库. PDFBox-0.7.3.jar加入classpath.同时FontBox1.0.jar加入 ...
java读取pdf文本转换html
补充:一下代码基于maven,现将依赖的jar包单独导出地址:pdf jar 完整代码地址也就两个文件 java读取pdf中的纯文字,这里使用的是pdfbox工具包 maven引入如下配置 < ...
【PDF】java使用Itext生成pdf文档--详解
[API接口] 一.Itext简介 API地址:javadoc/index.html:如 D:/MyJAR/原JAR包/PDF/itext-5.5.3/itextpdf-5.5.3-javadoc/ ...
Itext读取PDF模板文件渲染数据后创建新文件
Maven导入依赖 <properties> <itextpdf.version>5.5.0</itextpdf.version> <itext-asian. ...
java实现批量下载百度图片搜索到的图片
就是写的个小程序,用于记录一下,方便后续查看,首先感谢下面这个博客,从这篇文章衍生的吧,大家可以学习下: http://www.cnblogs.com/lichenwei/p/4610298.html ...
新知识：Java 利用itext填写pdf模板并导出（昨天奋战到深夜四点，知道今天两点终于弄懂）
废话少说,不懂itext干啥用的直接去百度吧. ***************制作模板******************* 1.先用word做出界面 2.再转换成pdf格式 3.用Adobe Acr ...

随机推荐

nginx map使用方法
map指令使用ngx_http_map_module模块提供的.默认情况下,nginx有加载这个模块,除非人为的 --without-http_map_module.ngx_http_map_modu ...
centos 7 update to python V3.43 to assure git clone as usual
vim /usr/bin/yum vim /usr/libexec/urlgrabber-ext-down yum update -y nss curl libcurl
PLSQL过程创建和调用
存储过程创建过程范例 create or replace procedure pro_kingsql_p1( p_one in varchar2,--可以传入参数 p_two out varchar ...
SQL语句中的正则表达式
正则表达式 REGEXP_LIKE执行正则表达式匹配 SELECT FIRST_NAME FROM EMPLOYEES WHERE REGEXP_LIKE(FIRST_NAME,'^al(an|yss ...
Java中String, StringBuilder和StringBuffer
Java中常用来处理字符串的类有三个: String, StringBuffer和StringBuilder. 区别三者都继承自CharSequence接口, 首先说明三者间主要区别 String字 ...
java Arrays.asList 问题
1.问题 public static void asList() { System.out.println(Arrays.asList(new String[] { "a", &q ...
前端 HTML标签介绍
那什么是HTML标签呢? 1. 在HTML中规定标签使用英文的的尖括号即"<"和">"包起来,如`<html>`.`<p>` ...
模仿linux内核定时器代码，用python语言实现定时器
大学无聊的时候看过linux内核的定时器,如今已经想不起来了,也不知道当时有没有看懂,如今想要模仿linux内核的定时器.用python写一个定时器,已经想不起来它的设计原理了.找了一篇blog,li ...
[js]ext.js探索
Ext JS 经常会遇到布局等头疼的问题,一直在用bootstrap,但是我不喜欢这玩意出的效果想找个合适的js架构入手 http://examples.sencha.com/extjs/6.6.0/ ...
vs2010用NuGet(程序包管理)安装EF失败之解决办法
今天用程序包管理控制台安装EF.报错.如下

java使用itex读取pdf，并搜索关键字，为其盖章

java使用itex读取pdf，并搜索关键字，为其盖章的更多相关文章

随机推荐

热门专题