java 获取pdf内容

1. 说明

将pdf中的文字读取处理还有一些限制：1. 文档的安全属性不能过于严格 2. 不能存在图片。

2. 直接贴相关的源码

有两种读取方式，maven对应的pom文件

<dependencies>

  	<dependency>

	    <groupId>org.apache.pdfbox</groupId>

	    <artifactId>pdfbox</artifactId>

	    <version>1.8.8</version>

	</dependency>

	<dependency>

	    <groupId>com.itextpdf</groupId>

	    <artifactId>itextpdf</artifactId>

	    <version>5.0.6</version>

	</dependency>

  </dependencies>

2.1 pdfbox

/**

 * PdfboxUtil.java

 */

package com.hsm.pdfTest;

import java.io.BufferedWriter;

import java.io.File;

import java.io.FileInputStream;

import java.io.FileWriter;

import java.io.InputStream;

import org.apache.pdfbox.pdfparser.PDFParser;

import org.apache.pdfbox.pdmodel.PDDocument;

import org.apache.pdfbox.util.PDFTextStripper;

/**

 * @author hsm

 */

public class PdfboxUtil {

	private static String PDFPATH = "D:/Maven权威指南中文版.pdf";

	private static String FILEPATH = "D:/Maven权威指南中文版.doc";

	public static void main(String[] args) throws Exception {

		String content=getPdfContent(PDFPATH);

		toFile(content,FILEPATH);

	}

	/**

	 * 获取pdf的内容<br/>

	 * @param pdfPath

	 * @return

	 * @throws Exception

	 */

	private static String getPdfContent(String pdfPath) throws Exception {

	    boolean sort = false;// 是否排序

	    int startPage = 1;// 开始提取页数

	    int endPage = Integer.MAX_VALUE;   // 结束提取页数

	    String content = null;//暂时存放pdf内容

	    InputStream input = null;

	    File pdfFile = new File(pdfPath);

	    PDDocument document = null;

	    try {

	    	input = new FileInputStream(pdfFile);

	    	// 加载 pdf 文档

	    	PDFParser parser = new PDFParser(input);

	    	parser.parse();

	    	document = parser.getPDDocument();

	    	// 获取内容信息

	    	PDFTextStripper pts = new PDFTextStripper();

	    	pts.setSortByPosition(sort);

	    	endPage = document.getNumberOfPages();

	    	System.out.println("Total Page: " + endPage);

	    	pts.setStartPage(startPage);

	    	pts.setEndPage(endPage);

	    	try {

	    		content = pts.getText(document);

	    	}catch(Exception e) {

	    		throw e;

	    	}

	    	System.out.println("Get PDF Content ...");

      }catch(Exception e){

         throw e;

      } finally {

         if (null != input)

            input.close();

         if (null != document)

            document.close();

      }

      return content;

	}

	private static void toFile(String content,String filePath) {

		 try {

	         File f = new File(filePath);

	         if (!f.exists()) {

	            f.createNewFile();

	         }

	         System.out.println("Write PDF Content to txt file ...");

	         BufferedWriter output = new BufferedWriter(new FileWriter(f));

	         output.write(content);

	         output.close();

	      } catch (Exception e) {

	         e.printStackTrace();

	      }

	}

}

2.2 itext

package com.hsm.pdfTest;

import java.io.FileOutputStream;

import java.io.IOException;

import java.io.PrintWriter;

import com.itextpdf.text.pdf.PdfReader;

import com.itextpdf.text.pdf.parser.PdfReaderContentParser;

import com.itextpdf.text.pdf.parser.PdfTextExtractor;

import com.itextpdf.text.pdf.parser.SimpleTextExtractionStrategy;

import com.itextpdf.text.pdf.parser.TextExtractionStrategy;

/**

 * @author hsm

 */

public class ItextpdfUtil {

	private static String PDFPATH = "D:/Maven权威指南中文版.pdf";

	private static String FILEPATH = "D:/Maven权威指南中文版.doc";

	public static void main(String[] args)  {

		String content=getPdfContent(PDFPATH);

		System.out.println(content);

		toFile(PDFPATH,FILEPATH);

	}

	/**

	 * 获取pdf的内容

	 * @param pdfPath

	 * @return

	 */

	private static String getPdfContent(String pdfPath) {

		PdfReader reader = null;

	    StringBuffer buff = new StringBuffer();

	    try {

			reader = new PdfReader(pdfPath);

			PdfReaderContentParser parser = new PdfReaderContentParser(reader);

			int num = reader.getNumberOfPages();// 获得页数

			TextExtractionStrategy strategy;

			for (int i = 1; i <= num; i++) {

			   strategy = parser.processContent(i,

			          new SimpleTextExtractionStrategy());

			   buff.append(strategy.getResultantText());

			}

	     } catch (IOException e) {

	        e.printStackTrace();

	     }

	   return buff.toString();

	}

	/**

	 * 将对应的pdf文件读到指定的文件中

	 * @param pdfPath

	 * @param filePath

	 */

	private static void toFile(String pdfPath, String filePath) {

		PrintWriter writer = null;

		PdfReader reader = null;

		try {

			writer = new PrintWriter(new FileOutputStream(filePath));

			reader = new PdfReader(pdfPath);

			int num = reader.getNumberOfPages();// 获得页数

			System.out.println("Total Page: " + num);

			StringBuffer content = new StringBuffer(""); // 存放读取出的文档内容

			for (int i = 1; i <= num; i++) {

				// 读取第i页的文档内容

				content.append(PdfTextExtractor.getTextFromPage(reader, i));

			}

			writer.write(content.toString());// 写入文件内容

			writer.flush();

			writer.close();

		} catch (IOException e) {

			e.printStackTrace();

		}

	}

}

java 获取pdf内容的更多相关文章

Java从URL获取PDF内容
Java直接URL获取PDF内容题外话网上很多Java通过pdf转 HTML,转文本的,可是通过URL直接获取PDF内容,缺没有,浪费时间,本人最近工作中刚好用到,花了时间整理下,分享出来,防止浪 ...
Java 获取PDF数字签名证书信息
PDF文档中可添加数字签名,在添加签名前,需要准备可信任签名证书.对文档中已有的签名,可验证书签是否有效.也可通过一定方法来获取数字签名或者签名证书信息.下面以Java代码示例展示如何读取签名的证书信 ...
java根据URL获取HTML内容
之前我写脚本,是想获取HTML内容的. 但是呢...一方面编码困扰着我,于是我写了这个: java根据URL获取网页编码然后呢,每个网站是不是GZIP还得判断,贼麻烦... 但是没办法啊,麻烦也得写 ...
Java：获取文件内容
文章来源:https://www.cnblogs.com/hello-tl/p/9139353.html import java.io.*; public class FileBasicOperati ...
关于java 获取 html select标签下拉框 option 文本内容隐藏域
在HTML中从多选下拉框中提取已选中选项的文本内容到后台,被这个问题难倒了. demo.jsp文件 <select id="selecttype" name"typ ...
java通过URL获取文本内容
原文地址https://www.cnblogs.com/myadmin/p/7634262.html public static String readFileByUrl(String urlStr) ...
通过http路径获取文本内容（Java）
public static String readFileByUrl(String urlStr) { String res = null; try { URL url = new URL(urlSt ...
【apache tika】apache tika获取文件内容(与FileUtils的对比)
Tika支持多种功能: 文档类型检测内容提取元数据提取语言检测重要特点: 统一解析器接口:Tika封装在一个单一的解析器接口的第三方解析器库.由于这个特征,用户逸出从选择合适的解析器库的负担, ...
Java三方---->pdf框架之IText的使用
在企业的信息系统中,报表处理一直占比较重要的作用t.通过在服务器端使用Jsp或JavaBean生成PDF报表,客户端采用超链接显示或下载得到生成的报表,这样就很好的解决了B/S系统的报表处理问题.今天 ...

随机推荐

C#中Lock静态字段和实例字段
using System; using System.Collections.Generic; using System.Linq; using System.Text; using System.T ...
oracle中提高order by的性能
1.如果order by columnA,那么在where查询条件中添加条件columnA=value,则oracle内部会过滤order by排序,直接用索引(可以通过execution plan查 ...
【数据挖掘】分类之kNN（转载）
[数据挖掘]分类之kNN 1.算法简介 kNN的思想很简单:计算待分类的数据点与训练集所有样本点,取距离最近的k个样本:统计这k个样本的类别数量:根据多数表决方案,取数量最多的那一类作为待测样本的类别 ...
CSDN开源夏令营基于Compiz的switcher插件设计与实现之前期准备 git的简单使用
因为项目的代码须要上传到git上.就须要学习一下git的使用了. 我初步接触了一下git,准备用此帖来记录git的学习,此帖会随着我对git了解的深入动态更新. 一.GIT的介绍 1.概述:git是一 ...
Downloading jQuery
Compressed and uncompressed copies of jQuery files are available. The uncompressed file is best used ...
浏览器登录cookie
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.o ...
nignx部署django
操作系统:Linux wiki 2.6.32-131.0.15.el6.x86_64 nginx版本: nginx-1.5.7 uwsgi版本:uwsgi-2.0.8 大致流程参考:http://ww ...
HTML5 - 新增的元素，删除的元素
1,HTML5新增的元素(1)用于构建页面的语义元素:<article>,<aside>,<figcaption>,<figure>,<foote ...
com.netflix.hystrix.contrib.javanica.exception.FallbackDefinitionException: fallback method wasn't found: serviceError([class java.lang.String]) 异常
在使用spring cloud 的 Hystrix 后可能会遇到如下截图错误: 后台代码如下: 找了好一会经过分析参数方法和原方法参数步一致造成: 修改后代码如下:
static全局变量与普通的全局变量有什么区别？static局部变量和普通局部变量有什么区别？static函数与普通函数有什么区别？
答案:全局变量(外部变量)的说明之前再冠以static 就构成了静态的全局变量.全局变量本身就是静态存储方式,静态全局变量当然也是静态存储方式. 这两者在存储方式上并无不同.这两者的区别虽在于非静态全 ...

java 获取pdf内容

1. 说明

2. 直接贴相关的源码

2.1 pdfbox

2.2 itext

java 获取pdf内容的更多相关文章

随机推荐

热门专题