一、背景


  pdfbox作为Apache开源的PDF操作工具,允许创建新的PDF文档,操作现有文档,以及从文档中提取内容的能力。Apache PDFBox还包括一些命令行实用工具。本文楼主主要介绍其中的PDF转图片的功能,有其他功能需求的同学,可以去官网读读文档,https://pdfbox.apache.org/

二、准备工作


  只需两个jar,pdfbox-2.0.7.jar,font-box-2.0.7.jar,当然用maven或gradle的同学,只需引入pdfbox就行了,依赖添加,楼主给大家准备在下面,直接取就OK。

  gradle添加依赖:

 //添加pdfbox的依赖
compile('org.apache.pdfbox:pdfbox:2.0.7')

  maven添加依赖:

 <dependency>
<groupId>org.apache.pdfbox</groupId>
<artifactId>pdfbox</artifactId>
<version>2.0.7</version>
</dependency>

  其次,就是准备pdf文档一份,用来解析。

三、代码实现


  代码不是很多,不超过100行,楼主给出了很全面的注释:

 package cn.apache.poi.pdf;

 import org.apache.pdfbox.io.RandomAccessBuffer;
import org.apache.pdfbox.pdfparser.PDFParser;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.pdmodel.PDPage;
import org.apache.pdfbox.rendering.PDFRenderer; import javax.imageio.IIOImage;
import javax.imageio.ImageIO;
import javax.imageio.ImageWriter;
import javax.imageio.stream.ImageOutputStream;
import java.awt.image.BufferedImage;
import java.io.*;
import java.util.Iterator; /**
* Created by Jon_China on 2017/7/30.
*/
public class Pdf2Image {
public final static String IMG_TYPE_JPG = "jpg";
public final static String IMG_TYPE_PNG = "png";
public static void main( String[] args ) throws IOException{
Pdf2Image pdf2Image = new Pdf2Image();
pdf2Image.pdf2img("E:\\java测试\\java测试\\程序1\\待转换文件\\待转换pdf.pdf", "D:",IMG_TYPE_PNG);
} /**
* PDF转图片
* @param pdfPath pdf文件的路径
* @param savePath 图片保存的地址
* @param imgType 图片保存方式
*/
public void pdf2img(String pdfPath,String savePath,String imgType){
String fileName = pdfPath.substring(pdfPath.lastIndexOf("\\")+1, pdfPath.length());
fileName = fileName.substring(0,fileName.lastIndexOf("."));
InputStream is = null;
PDDocument pdDocument = null;
try {
is = new BufferedInputStream(new FileInputStream(pdfPath));
//创建pdf文件解析器
PDFParser parser = new PDFParser(new RandomAccessBuffer(is));
parser.parse();
//获取解析后的pdf文档
pdDocument = parser.getPDDocument();
//获取pdf渲染器,主要用来后面获取BufferedImage
PDFRenderer renderer = new PDFRenderer(pdDocument);
//获取pdf文件总页数
int pageCount = pdDocument.getNumberOfPages();
for (int i = 0; i < pageCount; i++) {
//构造保存文件名称格式
String saveFileName = savePath+"\\"+fileName+"-"+i+"."+imgType;
//获取当前页对象
PDPage page = pdDocument.getPage(i);
//图片转换
pdfPage2Img(page,saveFileName,imgType,renderer,i);
}
} catch (Exception e) {
e.printStackTrace();
}finally{
if(pdDocument != null){
try {
pdDocument.close();
} catch (IOException e) {
e.printStackTrace();
}
}
}
} /**
* 将pdf单页转换为图片
* @param page 当页对象
* @param saveFileName 保存的图片名称
* @param imgType 保存的图片类型
* @param renderer 用于获取BufferedImage
* @param index 页索引
* @throws IOException
*/
public void pdfPage2Img(PDPage page,String saveFileName,String imgType,PDFRenderer renderer,int index) throws IOException{
//构造图片
BufferedImage img_temp = renderer.renderImage(index);
//设置图片格式
Iterator<ImageWriter> it = ImageIO.getImageWritersBySuffix(imgType);
//将文件写出
ImageWriter writer = (ImageWriter) it.next();
ImageOutputStream imageout = ImageIO.createImageOutputStream(new FileOutputStream(saveFileName));
writer.setOutput(imageout);
writer.write(new IIOImage(img_temp, null, null));
}
}

  就是这么简单,源码地址,请戳https://github.com/LJunChina/MineKnowContainer/tree/master/pdf

使用pdfbox分页保存pdf为图片的更多相关文章

  1. Java文件操作系列[1]——PDFBox实现分页提取PDF文本

    需求:用java分页提取PDF文本. PDFBox是一个很好的可以满足上述需求的开源工具. 1.PDF文档结构 要解析PDF文本,我们首先要了解PDF文件的结构. 关于PDF文档,最重要的几点: 一, ...

  2. JAVA基于PDF box将PDF转为图片

    在一项目中用到,本身我是.NET的,团队中有用到JAVA,故此我处理这个功能,记录以下备用. 1.引用:fontbox-2.0.16.jar.pdfbox-app-2.0.16.jar 版本一定要正确 ...

  3. C# 给PDF添加图片背景

    C# 给PDF添加图片背景 今天要实现的是给PDF文件添加图片背景这个功能.PDF是近年来最流行的文件之一,无论是办公还是日常生活中都经常会用到,很多时候,PDF文件的背景色都是白色,看多了难免觉得累 ...

  4. 使用magick.net将pdf转换为图片

    现在手上有个需求是要将pdf转换为一页一页的image.最开始找到的是pdfbox来处理pdf的.在pdfbox.apache.org的官网首页写了一句'convert you pdfs to ima ...

  5. PDF转图片 C# with Adobe API

    PDF转图片大概有十几种方式,褒贬不一,我就详细给大家说一下我认为效率最高的方式,使用Adobe官方的SDK 安装acrobat reader 9.0以上即可,勾选如下组件.

  6. JAVA中pdf转图片的方法

    JAVA中实现pdf转图片可以通过第三方提供的架包,这里介绍几种常用的,可以根据自身需求选择使用. 一.icepdf.有收费版和开源版,几种方法里最推荐的.转换的效果比较好,能识别我手头文件中的中文, ...

  7. [PDFBox]后台操作pdf的工具类

    PDFBox是Apache下的一个操作pdf的类库.其也提供了一个命令行的工具,也提供了java调用的第三方类库. 下载地址:https://pdfbox.apache.org/ 下面的实验基于JDK ...

  8. Python|网页转PDF,PDF转图片爬取校园课表~

    import pdfkit import requests from bs4 import BeautifulSoup from PIL import Image from pdf2image imp ...

  9. html页面转PDF、图片操作记录

    前言 日常开发中,我们有可能会碰到从系统中导出数据并打印的需要,打印的格式是常规的表格形式,例如: 本文记录使用js库html2canvas + jspdf实现html转PDF.图片,并下载 画出页面 ...

随机推荐

  1. Bash中的数学扩展

    Bash只支持整数运算,不支持浮点运算.如果需要进行浮点运算,需要使用bc程序.Bash中的数学扩展有两种形式:$[ expression ]或$(( expression )) 例子:$echo $ ...

  2. 在Windows上远程运行Linux程序

    1.在Windows主机上安装X Server软件,如Cygwin带的XWin Server 2.在Windows主机上启动X服务器,并将Linux主机设为允许访问该Windows主机上的X服务器. ...

  3. java io 流

    Java流操作有关的类或接口: Java流类图结构: 流的概念和作用 流是一组有顺序的,有起点和终点的字节集合,是对数据传输的总称或抽象.即数据在两设备间的传输称为流,流的本质是数据传输,根据数据传输 ...

  4. [转] 传说中的WCF(2):服务协定的那些事儿

    上一篇文章中,我们抛出了N个问题:WCF到底难不难学?复杂吗?如果复杂,可以化繁为简吗? 其实,这些问题的答案全取决于你的心态,都说“态度决定一切”,这句话,不知道各位信不信,反正我是信了.首先,敢于 ...

  5. SICP-1.5-控制结构

    测试 DOCSETS 在docstring中直接添加测试 def sum_naturals(n): """Return the sum of the first n na ...

  6. SICP-Elements of program

    编程语言=组合简单形成复杂的工具 简单的声明和表达式 简单元素之间的组合方式 组合后元素的抽象方式 程序=数据+函数 数据是我们要处理的内容 函数是我们处理数据的方式 函数式与中缀式 函数式不会出现歧 ...

  7. 关于java中使用数组的几点理解笔记

    1.数组元素就是变量: 2.在已有数据类型之后加方括号[],就会产生一个新的数组类型: 分两类:1)基本数据类型,如:int[],string[]; 2)引用数据类型,如:Person[](类): 3 ...

  8. java中String与StringBuffer拼接的区别

    学习笔记: 1.String拼接会创建一个新的String对象,存储拼接后的字符串: StringBuffer拼接是直接在本身拼接,会即时刷新. 2.String只能拼接String类型的字符串: S ...

  9. python连接impala(安装impyla)

    相关环境如下: Python3.4 Win7 64位 参照官网https://github.com/cloudera/impyla中的安装步骤执行: 1.pip install six 2.pip i ...

  10. js脚本中try与cache捕获异常处理

    <script type="text/javascript"> function add_reason(elm){ try{ var pp=$('.pp').val() ...