java word文档 转 html文件
一、简介
一般word文件后缀有doc、docx两种。docx是office word 2007以及以后版本文档的扩展名;doc是office word 2003文档保存的扩展名。对于这两种格式的word转换成html需要使用不同的方法。
对于docx格式的文档使用xdocreport进行转换。依赖如下:
- <dependency>
- <groupId>fr.opensagres.xdocreport</groupId>
- <artifactId>fr.opensagres.xdocreport.document</artifactId>
- <version>1.0.5</version>
- </dependency>
- <dependency>
- <groupId>fr.opensagres.xdocreport</groupId>
- <artifactId>org.apache.poi.xwpf.converter.xhtml</artifactId>
- <version>1.0.5</version>
- </dependency>
对于docx格式的文档使用poi进行转换。依赖如下:
- <dependency>
- <groupId>org.apache.poi</groupId>
- <artifactId>poi</artifactId>
- <version>3.12</version>
- </dependency>
- <dependency>
- <groupId>org.apache.poi</groupId>
- <artifactId>poi-scratchpad</artifactId>
- <version>3.12</version>
- </dependency>
二:示例
代码示例如下:
- package com.test.word;
- import java.io.File;
- import java.io.FileInputStream;
- import java.io.FileNotFoundException;
- import java.io.FileOutputStream;
- import java.io.IOException;
- import java.io.InputStream;
- import java.io.OutputStream;
- import javax.xml.parsers.DocumentBuilderFactory;
- import javax.xml.parsers.ParserConfigurationException;
- import javax.xml.transform.OutputKeys;
- import javax.xml.transform.Transformer;
- import javax.xml.transform.TransformerException;
- import javax.xml.transform.TransformerFactory;
- import javax.xml.transform.dom.DOMSource;
- import javax.xml.transform.stream.StreamResult;
- import org.apache.poi.hwpf.HWPFDocument;
- import org.apache.poi.hwpf.converter.PicturesManager;
- import org.apache.poi.hwpf.converter.WordToHtmlConverter;
- import org.apache.poi.hwpf.usermodel.PictureType;
- import org.apache.poi.xwpf.converter.core.FileImageExtractor;
- import org.apache.poi.xwpf.converter.core.FileURIResolver;
- import org.apache.poi.xwpf.converter.xhtml.XHTMLConverter;
- import org.apache.poi.xwpf.converter.xhtml.XHTMLOptions;
- import org.apache.poi.xwpf.usermodel.XWPFDocument;
- import org.junit.Test;
- import org.w3c.dom.Document;
- /**
- * word 转换成html
- */
- public class WordToHtml {
- /**
- * 2007版本word转换成html
- * @throws IOException
- */
- @Test
- public void Word2007ToHtml() throws IOException {
- String filepath = "C:/test/";
- String fileName = "滕王阁序2007.docx";
- String htmlName = "滕王阁序2007.html";
- final String file = filepath + fileName;
- File f = new File(file);
- if (!f.exists()) {
- System.out.println("Sorry File does not Exists!");
- } else {
- if (f.getName().endsWith(".docx") || f.getName().endsWith(".DOCX")) {
- // 1) 加载word文档生成 XWPFDocument对象
- InputStream in = new FileInputStream(f);
- XWPFDocument document = new XWPFDocument(in);
- // 2) 解析 XHTML配置 (这里设置IURIResolver来设置图片存放的目录)
- File imageFolderFile = new File(filepath);
- XHTMLOptions options = XHTMLOptions.create().URIResolver(new FileURIResolver(imageFolderFile));
- options.setExtractor(new FileImageExtractor(imageFolderFile));
- options.setIgnoreStylesIfUnused(false);
- options.setFragment(true);
- // 3) 将 XWPFDocument转换成XHTML
- OutputStream out = new FileOutputStream(new File(filepath + htmlName));
- XHTMLConverter.getInstance().convert(document, out, options);
- //也可以使用字符数组流获取解析的内容
- // ByteArrayOutputStream baos = new ByteArrayOutputStream();
- // XHTMLConverter.getInstance().convert(document, baos, options);
- // String content = baos.toString();
- // System.out.println(content);
- // baos.close();
- } else {
- System.out.println("Enter only MS Office 2007+ files");
- }
- }
- }
- /**
- * /**
- * 2003版本word转换成html
- * @throws IOException
- * @throws TransformerException
- * @throws ParserConfigurationException
- */
- @Test
- public void Word2003ToHtml() throws IOException, TransformerException, ParserConfigurationException {
- String filepath = "C:/test/";
- final String imagepath = "C:/test/image/";
- String fileName = "滕王阁序2003.doc";
- String htmlName = "滕王阁序2003.html";
- final String file = filepath + fileName;
- InputStream input = new FileInputStream(new File(file));
- HWPFDocument wordDocument = new HWPFDocument(input);
- WordToHtmlConverter wordToHtmlConverter = new WordToHtmlConverter(DocumentBuilderFactory.newInstance().newDocumentBuilder().newDocument());
- //设置图片存放的位置
- wordToHtmlConverter.setPicturesManager(new PicturesManager() {
- public String savePicture(byte[] content, PictureType pictureType, String suggestedName, float widthInches, float heightInches) {
- File imgPath = new File(imagepath);
- if(!imgPath.exists()){//图片目录不存在则创建
- imgPath.mkdirs();
- }
- File file = new File(imagepath + suggestedName);
- try {
- OutputStream os = new FileOutputStream(file);
- os.write(content);
- os.close();
- } catch (FileNotFoundException e) {
- e.printStackTrace();
- } catch (IOException e) {
- e.printStackTrace();
- }
- return imagepath + suggestedName;
- }
- });
- //解析word文档
- wordToHtmlConverter.processDocument(wordDocument);
- Document htmlDocument = wordToHtmlConverter.getDocument();
- File htmlFile = new File(filepath + htmlName);
- OutputStream outStream = new FileOutputStream(htmlFile);
- //也可以使用字符数组流获取解析的内容
- // ByteArrayOutputStream baos = new ByteArrayOutputStream();
- // OutputStream outStream = new BufferedOutputStream(baos);
- DOMSource domSource = new DOMSource(htmlDocument);
- StreamResult streamResult = new StreamResult(outStream);
- TransformerFactory factory = TransformerFactory.newInstance();
- Transformer serializer = factory.newTransformer();
- serializer.setOutputProperty(OutputKeys.ENCODING, "utf-8");
- serializer.setOutputProperty(OutputKeys.INDENT, "yes");
- serializer.setOutputProperty(OutputKeys.METHOD, "html");
- serializer.transform(domSource, streamResult);
- //也可以使用字符数组流获取解析的内容
- // String content = baos.toString();
- // System.out.println(content);
- // baos.close();
- outStream.close();
- }
- }
运行生存文件结果如下:
java word文档 转 html文件的更多相关文章
- 微信公众号怎么添加附件?比如word文档,pdf文件等
微信公众号怎么添加附件?比如word文档,pdf文件等 我们都知道创建一个微信公众号,在公众号中发布一些文章是非常简单的,但公众号添加附件下载的功能却被限制,如今可以使用小程序“微附件”进行在公众 ...
- JAVA使用aspose实现word文档转pdf文件
引入jar包 下载地址:https://yvioo.lanzous.com/iezpdno3mob 然后打开下载的目录打开cmd执行 mvn install:install-file -Dfile=a ...
- POI实现word文档转html文件
POI word文件转html package com.feiruo.officeConvert; import java.io.BufferedWriter; import java.io.File ...
- 如何在PowerDesigner将PDM导出生成WORD文档或者html文件
a) 使用PowerDesigner打开pdm文件 b) 点击Report Temlates 制作模板 点击PowerDesigner菜单栏“Report” -> ...
- 批量转换word文档到pdf文件
最近在整理每周的工作记录.因为每周的工作记录大都是单独的word文件,有时候忘记了也不容易找出来,一个个打开查找太费劲,因此想着把这些文件通过word2016的另存为功能转换为pdf,然后永Acrob ...
- Java 使用 jacob 将 word 文档转换为 pdf 文件
网上查询了许许多多的博客,说利用 poi.iText.Jsoup.jdoctopdf.使用 jodconverter 来调用 openOffice 的服务来转换等等,我尝试了很多种,但要么显示不完全, ...
- DEV word文档转换为pdf文件
引用aspose.net控件2.0. docement doc=new document(文件路径和名称); doc.save(输出路径\file.pdf);
- 转换Word文档为PDF文件
1.使用 Office COM组件的Microsoft.Office.Interop.word.dll库 该方法需要在电脑上安装Office软件,并且需要Office支持转换为PDF格式,如果不支持, ...
- 算法笔记_104:蓝桥杯练习 算法提高 新建Microsoft Word文档(Java)
目录 1 问题描述 2 解决方案 1 问题描述 问题描述 L正在出题,新建了一个word文档,想不好取什么名字,身旁一人惊问:“你出的题目叫<新建Microsoft Word文档>吗? ...
随机推荐
- ReportingServies——SQLServer报表开发综合实例
如果我们安装了sqlserver2008 R2,将会自动安装一个报表开发工具 不要以为此报表开发工具只适合于sqlserver2008,其实在sqlserver2012中也是支持的,事实上我现在项目中 ...
- [asp.net mvc 奇淫巧技] 01 - 封装上下文 - 在View中获取自定义的上下文
我们在asp.net 开发中已经封装了最强大的HttpContext,我们可以在HttpContext中可以获取到几乎任何想获取的东西,也可以在HttpContext写入需要返回客户端的信息.但是这些 ...
- java内存模型-基础
基础 并发编程模型的分类 在并发编程中,我们需要处理两个关键问题:线程之间如何通信及线程之间如何同步(这里的线程是指并发执行的活动实体).通信是指线程之间以何种机制来交换信息.在命令式编程中,线程之间 ...
- reset
html, body, div, span, applet, object, iframe, h1, h2, h3, h4, h5, h6, p, blockquote, pre, a, abbr, ...
- 如何订阅Form的自定义事件
Window Form类有很多的属性/方法和事件,其中事件属于一种发布订阅模式 .订阅发布模式定义了一种一对多的依赖关系,让多个订阅者对象同时监听某一个主体对象.这个主体对象在自身状态变化时,会通知所 ...
- Restive.js – 轻松让网站变成响应式和自适应
Restive.js 是一个 jQuery 插件,可以帮助您轻松快捷地添加响应式功能到你网站,适应几乎所有拥有 Web 功能的设备.使用设备检测,高级管理断点,以及方向管理的组合,Restive.js ...
- PyInstaller编译python3时使用的详细参数介绍
继续翻译中.... The syntax of the pyinstaller command is: pyinstaller [options] script [script ...] | spec ...
- [DeviceOne开发]-轮播图和多模板的简单示例
一.简介 这个例子是利用Slideview组件实现循环轮播的效果,同时这个slideview作为一个listview的最上面的一行数, 1. listview有2个模板,一个是以slideview为核 ...
- C/C++构建系统 CMake
Cmake实践 Cmake Practice –Cjacker cmake是kitware公司以及一些开源开发者在开发几个工具套件(VTK)的过程中衍 生品,最终形成体系,成为一个独立的开放源代码项目 ...
- 转:jQuery.data
原文地址:http://www.it165.net/pro/html/201404/11922.html 内存泄露 首先看看什么是内存泄露,这里直接拿来Aaron中的这部分来说明什么是内存泄露,内存泄 ...