java从pdf中提取文本

一（单文件转换）：下载pdfbox包，百度搜pdfbox.（fontbox-1.8.16.jar和pdfbox-app-1.8.16.jar）

 package pdf;

 import java.io.FileInputStream;

 import java.io.FileOutputStream;

 import java.io.OutputStreamWriter;

 import org.apache.pdfbox.pdfparser.PDFParser;

 import org.apache.pdfbox.pdmodel.PDDocument;

 import org.apache.pdfbox.util.PDFTextStripper;

 /**

  *

  * @author 大汉

  *

  */

 public class PdfToTxt {

     public PdfToTxt() {

         super();

         // TODO Auto-generated constructor stub

     }

     /**

      *

      * @param filename

      * @return

      * @throws Exception

      */

     public String GetTextFromPdf(String filename) throws Exception {

         String content = null;

         PDDocument pdfdocument = null;

         FileInputStream is = new FileInputStream(filename);

         PDFParser parser = new PDFParser(is);

         parser.parse();

         pdfdocument = parser.getPDDocument();

         PDFTextStripper stripper = new PDFTextStripper();

          content = stripper.getText(pdfdocument);

          return content;

          } 

     /**

      *

      * @param args

      */

     public static void main(String[] args) {

         PdfToTxt pdfToTxt = new PdfToTxt();

         try {

             //获取pdf文件路径

             String pdf = pdfToTxt.GetTextFromPdf("E:/2019a.pdf");

             //输出到txt文件

             OutputStreamWriter osw = new OutputStreamWriter(new FileOutputStream("E:/aa.txt"));

             osw.write(pdf);

             osw.flush();

             osw.close();

         }catch (Exception e){

             e.printStackTrace();

         }

     }

 }

还可以这样：（第二种方法）

 package pdf;

 import java.io.File;

 import java.io.FileOutputStream;

 import java.io.OutputStreamWriter;

 import java.io.Writer;

 import java.net.MalformedURLException;

 import java.net.URL;

 import org.apache.pdfbox.pdmodel.PDDocument;

 import org.apache.pdfbox.util.PDFTextStripper;

 /**

  * 批量转换

  * @author 大汉

  *

  */

 public class BatchPdfToTxt {

     public BatchPdfToTxt() {

         super();

         // TODO Auto-generated constructor stub

     }

     public static void readPdf(String file) throws Exception {

         // 是否排序

         boolean sort = false;

         // pdf文件名

         String pdfFile = file;

         // 输入文本文件名称

         String textFile = null;

         // 编码方式

         String encoding = "UTF-8";

         // 开始提取页数

         int startPage = 1;

         // 结束提取页数

         int endPage = Integer.MAX_VALUE;

         // 文件输入流，生成文本文件

         Writer output = null;

         // 内存中存储的PDF Document

         PDDocument document = null;

         try {

             try {

                 // 首先当作一个URL来装载文件，如果得到异常再从本地文件系统//去装载文件

                 URL url = new URL(pdfFile);

                 //注意参数已不是以前版本中的URL.而是File。

                 document = PDDocument.load(pdfFile);

                 // 获取PDF的文件名

                 String fileName = url.getFile();

                 // 以原来PDF的名称来命名新产生的txt文件

                 if (fileName.length() > 4) {

                     File outputFile = new File(fileName.substring(0, fileName.length() - 4)+ ".txt");

                     textFile ="E:/"+outputFile.getName();

                 }

             } catch (MalformedURLException e) {

                 // 如果作为URL装载得到异常则从文件系统装载

                 //注意参数已不是以前版本中的URL.而是File。

                 document = PDDocument.load(pdfFile);

                 if (pdfFile.length() > 4) {

                     textFile = pdfFile.substring(0, pdfFile.length() - 4)+ ".txt";

                 }

             }

             // 文件输入流，写入文件倒textFile

             output = new OutputStreamWriter(new FileOutputStream(textFile),encoding);

             // PDFTextStripper来提取文本

             PDFTextStripper stripper = null;

             stripper = new PDFTextStripper();

             // 设置是否排序

             stripper.setSortByPosition(sort);

             // 设置起始页

             stripper.setStartPage(startPage);

             // 设置结束页

             stripper.setEndPage(endPage);

             // 调用PDFTextStripper的writeText提取并输出文本

             stripper.writeText(document, output);

             System.out.println(textFile + " 输出成功！");

         } finally {

             if (output != null) {

                 // 关闭输出流

                 output.close();

             }

             if (document != null) {

                 // 关闭PDF Document

                 document.close();

             }

         }

     }

     /**

      *

      * @param args

      */

     public static void main(String[] args) {

         try {

             //注意此处的绝对地址格式，最好要用这一种。

             readPdf("E:/用户行为排序算法.pdf");

         } catch (Exception e) {

             e.printStackTrace();

         }

     }

 }

效果图：

總結：唯一的缺點是不能顯示圖片，請看下一篇：----------------------->>>>>>>>PDF转WORD.

java从pdf中提取文本的更多相关文章

Java 读取PDF中的文本和图片
本文将介绍通过Java程序来读取PDF文档中的文本和图片的方法.分别调用方法extractText()和extractImages()来读取. 使用工具:Free Spire.PDF for Ja ...
Java 设置PDF中的文本旋转、倾斜
本文介绍通过Java程序在PDF文档中设置文本旋转.倾斜的方法.设置文本倾斜时,通过定义方法TransformText(page);并设置page.getCanvas().skewTransform( ...
用PDFMiner从PDF中提取文本文字
1.下载并安装PDFMiner 从https://pypi.python.org/pypi/pdfminer/下载PDFMineer wget https://pypi.python.org/pack ...
Java 在PDF中添加水印——文本/图片水印
水印是一种十分常用的防伪手段,常用于各种文档.资料等.常见的水印,包括文字类型的水印.图片或logo类型的水印.以下Java示例,将分别使用insertTextWatermark(PdfPageBas ...
如何使用免费PDF控件从PDF文档中提取文本和图片
如何使用免费PDF控件从PDF文档中提取文本和图片概要现在手头的项目有一个需求是从PDF文档中提取文本和图片,我以前也使用过像iTextSharp, PDFBox 这些免费的PD ...
java itext替换PDF中的文本
itext没有提供直接替换PDF文本的接口,我们可以通过在原有的文本区域覆盖一个遮挡层,再在上面加上文本来实现. 所需jar包: 1.先在PDF需要替换的位置覆盖一个白色遮挡层(颜色可根据PDF文字背 ...
利用java从docx文档中提取文本内容
利用java从docx文档中提取文本内容使用Apache的第三方jar包,地址为https://poi.apache.org/ docx文档内容如图: 目录结构: 每个文件夹的名称为日期加上来源,例 ...
从PDF中提取信息----PDFMiner
今天由于某种原因需要将pdf中的文本提取出来,就去搜了下资料,发现PDFMiner是针对内容提取的,虽然最后发现pdf里面的文本全都是图片,就没整成功,不过试了个文本可复制的那种pdf文件,发现还 ...
C# 设置或验证 PDF中的文本域格式
概述 PDF中的文本域可以通过设置不同格式,用于显示数字.货币.日期.时间.邮政编码.电话号码和社保号等等.Adobe Acrobat提供了许多固定的JavaScripts用来设置和验证文本域的格式, ...

随机推荐

012_TCP keepalive 和 http keep-alive
TCP keepalive概念在使用TCP长连接(复用已建立TCP连接)的场景下,需要对TCP连接进行保活,避免被网关干掉连接.在应用层,可以通过定时发送心跳包的方式实现.而Linux已提供的TCP ...
记一次简单的GetShell案例
案例链接: http://202.112.51.184:8007/ 打开链接,发现分了多个页面: 挨个点击,大概清楚是上传指定格式的文件然后在搜索的时候使文件执行从而GetShell,观察发现点击每个 ...
Elastichsearch实践——基本使用
官网文档:https://www.elastic.co/guide/cn/elasticsearch/guide/current/getting-started.html es中的索引.类型.文档可以 ...
ROS与C++
构建工作空间 catkin_make 构建Catkin包 catkin_create_pkg # This is an example, do not try to run this # catkin ...
rpmbuild analysis
Unity iOS Appstore 上架的问题
之前一直是一个人的名义上架的应用.现在变成:公司的账号就会出现一些莫名的问题: 首先是账号需要新的boulder名字,新建之后下载验证key. 注意:真机测试不发布,选择自动签名就行了:需要发布就取消 ...
使用Open Live Write发布CSDN博客
---安装open live write 1.序在CSDN上发布博客相当麻烦,图片一张张的上传确实让人头大,虽然通过office也能发布博客,不过Open Live Write软件使用感觉更好. 2 ...
web---资源的下载及中文乱码问题
1.html网页,超链接交由Servlet处理 <!DOCTYPE html> <html lang="en"> <head> <meta ...
spring-cloud-ribbon负载均衡组件
Ribbon简介: Spring Cloud Ribbon 是一个基于 HTTP 和 TCP 的客户端负载均衡工具,它基于 Netflix Ribbon 实现. 通过 Spring Cloud 的封装 ...
java springboot 大文件分片上传处理
参考自:https://blog.csdn.net/u014150463/article/details/74044467 这里只写后端的代码,基本的思想就是,前端将文件分片,然后每次访问上传接口的时 ...

java从pdf中提取文本

java从pdf中提取文本的更多相关文章

随机推荐

热门专题