一、简介
  一般word文件后缀有doc、docx两种。docx是office word 2007以及以后版本文档的扩展名;doc是office word 2003文档保存的扩展名。对于这两种格式的word转换成html需要使用不同的方法。
对于docx格式的文档使用xdocreport进行转换。依赖如下:

  1. <dependency>
  2. <groupId>fr.opensagres.xdocreport</groupId>
  3. <artifactId>fr.opensagres.xdocreport.document</artifactId>
  4. <version>1.0.5</version>
  5. </dependency>
  6. <dependency>
  7. <groupId>fr.opensagres.xdocreport</groupId>
  8. <artifactId>org.apache.poi.xwpf.converter.xhtml</artifactId>
  9. <version>1.0.5</version>
  10. </dependency>

对于docx格式的文档使用poi进行转换。依赖如下:

  1. <dependency>
  2. <groupId>org.apache.poi</groupId>
  3. <artifactId>poi</artifactId>
  4. <version>3.12</version>
  5. </dependency>
  6. <dependency>
  7. <groupId>org.apache.poi</groupId>
  8. <artifactId>poi-scratchpad</artifactId>
  9. <version>3.12</version>
  10. </dependency>

二:示例
  代码示例如下:

  1. package com.test.word;
  2.  
  3. import java.io.File;
  4. import java.io.FileInputStream;
  5. import java.io.FileNotFoundException;
  6. import java.io.FileOutputStream;
  7. import java.io.IOException;
  8. import java.io.InputStream;
  9. import java.io.OutputStream;
  10.  
  11. import javax.xml.parsers.DocumentBuilderFactory;
  12. import javax.xml.parsers.ParserConfigurationException;
  13. import javax.xml.transform.OutputKeys;
  14. import javax.xml.transform.Transformer;
  15. import javax.xml.transform.TransformerException;
  16. import javax.xml.transform.TransformerFactory;
  17. import javax.xml.transform.dom.DOMSource;
  18. import javax.xml.transform.stream.StreamResult;
  19.  
  20. import org.apache.poi.hwpf.HWPFDocument;
  21. import org.apache.poi.hwpf.converter.PicturesManager;
  22. import org.apache.poi.hwpf.converter.WordToHtmlConverter;
  23. import org.apache.poi.hwpf.usermodel.PictureType;
  24. import org.apache.poi.xwpf.converter.core.FileImageExtractor;
  25. import org.apache.poi.xwpf.converter.core.FileURIResolver;
  26. import org.apache.poi.xwpf.converter.xhtml.XHTMLConverter;
  27. import org.apache.poi.xwpf.converter.xhtml.XHTMLOptions;
  28. import org.apache.poi.xwpf.usermodel.XWPFDocument;
  29. import org.junit.Test;
  30. import org.w3c.dom.Document;
  31.  
  32. /**
  33. * word 转换成html
  34. */
  35. public class WordToHtml {
  36.  
  37. /**
  38. * 2007版本word转换成html
  39. * @throws IOException
  40. */
  41. @Test
  42. public void Word2007ToHtml() throws IOException {
  43. String filepath = "C:/test/";
  44. String fileName = "滕王阁序2007.docx";
  45. String htmlName = "滕王阁序2007.html";
  46. final String file = filepath + fileName;
  47. File f = new File(file);
  48. if (!f.exists()) {
  49. System.out.println("Sorry File does not Exists!");
  50. } else {
  51. if (f.getName().endsWith(".docx") || f.getName().endsWith(".DOCX")) {
  52.  
  53. // 1) 加载word文档生成 XWPFDocument对象
  54. InputStream in = new FileInputStream(f);
  55. XWPFDocument document = new XWPFDocument(in);
  56.  
  57. // 2) 解析 XHTML配置 (这里设置IURIResolver来设置图片存放的目录)
  58. File imageFolderFile = new File(filepath);
  59. XHTMLOptions options = XHTMLOptions.create().URIResolver(new FileURIResolver(imageFolderFile));
  60. options.setExtractor(new FileImageExtractor(imageFolderFile));
  61. options.setIgnoreStylesIfUnused(false);
  62. options.setFragment(true);
  63.  
  64. // 3) 将 XWPFDocument转换成XHTML
  65. OutputStream out = new FileOutputStream(new File(filepath + htmlName));
  66. XHTMLConverter.getInstance().convert(document, out, options);
  67.  
  68. //也可以使用字符数组流获取解析的内容
  69. // ByteArrayOutputStream baos = new ByteArrayOutputStream();
  70. // XHTMLConverter.getInstance().convert(document, baos, options);
  71. // String content = baos.toString();
  72. // System.out.println(content);
  73. // baos.close();
  74. } else {
  75. System.out.println("Enter only MS Office 2007+ files");
  76. }
  77. }
  78. }
  79.  
  80. /**
  81. * /**
  82. * 2003版本word转换成html
  83. * @throws IOException
  84. * @throws TransformerException
  85. * @throws ParserConfigurationException
  86. */
  87. @Test
  88. public void Word2003ToHtml() throws IOException, TransformerException, ParserConfigurationException {
  89. String filepath = "C:/test/";
  90. final String imagepath = "C:/test/image/";
  91. String fileName = "滕王阁序2003.doc";
  92. String htmlName = "滕王阁序2003.html";
  93. final String file = filepath + fileName;
  94. InputStream input = new FileInputStream(new File(file));
  95. HWPFDocument wordDocument = new HWPFDocument(input);
  96. WordToHtmlConverter wordToHtmlConverter = new WordToHtmlConverter(DocumentBuilderFactory.newInstance().newDocumentBuilder().newDocument());
  97. //设置图片存放的位置
  98. wordToHtmlConverter.setPicturesManager(new PicturesManager() {
  99. public String savePicture(byte[] content, PictureType pictureType, String suggestedName, float widthInches, float heightInches) {
  100. File imgPath = new File(imagepath);
  101. if(!imgPath.exists()){//图片目录不存在则创建
  102. imgPath.mkdirs();
  103. }
  104. File file = new File(imagepath + suggestedName);
  105. try {
  106. OutputStream os = new FileOutputStream(file);
  107. os.write(content);
  108. os.close();
  109. } catch (FileNotFoundException e) {
  110. e.printStackTrace();
  111. } catch (IOException e) {
  112. e.printStackTrace();
  113. }
  114. return imagepath + suggestedName;
  115. }
  116. });
  117.  
  118. //解析word文档
  119. wordToHtmlConverter.processDocument(wordDocument);
  120. Document htmlDocument = wordToHtmlConverter.getDocument();
  121.  
  122. File htmlFile = new File(filepath + htmlName);
  123. OutputStream outStream = new FileOutputStream(htmlFile);
  124.  
  125. //也可以使用字符数组流获取解析的内容
  126. // ByteArrayOutputStream baos = new ByteArrayOutputStream();
  127. // OutputStream outStream = new BufferedOutputStream(baos);
  128.  
  129. DOMSource domSource = new DOMSource(htmlDocument);
  130. StreamResult streamResult = new StreamResult(outStream);
  131.  
  132. TransformerFactory factory = TransformerFactory.newInstance();
  133. Transformer serializer = factory.newTransformer();
  134. serializer.setOutputProperty(OutputKeys.ENCODING, "utf-8");
  135. serializer.setOutputProperty(OutputKeys.INDENT, "yes");
  136. serializer.setOutputProperty(OutputKeys.METHOD, "html");
  137.  
  138. serializer.transform(domSource, streamResult);
  139.  
  140. //也可以使用字符数组流获取解析的内容
  141. // String content = baos.toString();
  142. // System.out.println(content);
  143. // baos.close();
  144. outStream.close();
  145. }
  146. }

  运行生存文件结果如下:

  

   

java word文档 转 html文件的更多相关文章

  1. 微信公众号怎么添加附件?比如word文档,pdf文件等

    微信公众号怎么添加附件?比如word文档,pdf文件等   我们都知道创建一个微信公众号,在公众号中发布一些文章是非常简单的,但公众号添加附件下载的功能却被限制,如今可以使用小程序“微附件”进行在公众 ...

  2. JAVA使用aspose实现word文档转pdf文件

    引入jar包 下载地址:https://yvioo.lanzous.com/iezpdno3mob 然后打开下载的目录打开cmd执行 mvn install:install-file -Dfile=a ...

  3. POI实现word文档转html文件

    POI word文件转html package com.feiruo.officeConvert; import java.io.BufferedWriter; import java.io.File ...

  4. 如何在PowerDesigner将PDM导出生成WORD文档或者html文件

    a)         使用PowerDesigner打开pdm文件 b)         点击Report Temlates 制作模板 点击PowerDesigner菜单栏“Report” -> ...

  5. 批量转换word文档到pdf文件

    最近在整理每周的工作记录.因为每周的工作记录大都是单独的word文件,有时候忘记了也不容易找出来,一个个打开查找太费劲,因此想着把这些文件通过word2016的另存为功能转换为pdf,然后永Acrob ...

  6. Java 使用 jacob 将 word 文档转换为 pdf 文件

    网上查询了许许多多的博客,说利用 poi.iText.Jsoup.jdoctopdf.使用 jodconverter 来调用 openOffice 的服务来转换等等,我尝试了很多种,但要么显示不完全, ...

  7. DEV word文档转换为pdf文件

    引用aspose.net控件2.0. docement doc=new document(文件路径和名称); doc.save(输出路径\file.pdf);

  8. 转换Word文档为PDF文件

    1.使用 Office COM组件的Microsoft.Office.Interop.word.dll库 该方法需要在电脑上安装Office软件,并且需要Office支持转换为PDF格式,如果不支持, ...

  9. 算法笔记_104:蓝桥杯练习 算法提高 新建Microsoft Word文档(Java)

    目录 1 问题描述 2 解决方案   1 问题描述 问题描述 L正在出题,新建了一个word文档,想不好取什么名字,身旁一人惊问:“你出的题目叫<新建Microsoft Word文档>吗? ...

随机推荐

  1. ReportingServies——SQLServer报表开发综合实例

    如果我们安装了sqlserver2008 R2,将会自动安装一个报表开发工具 不要以为此报表开发工具只适合于sqlserver2008,其实在sqlserver2012中也是支持的,事实上我现在项目中 ...

  2. [asp.net mvc 奇淫巧技] 01 - 封装上下文 - 在View中获取自定义的上下文

    我们在asp.net 开发中已经封装了最强大的HttpContext,我们可以在HttpContext中可以获取到几乎任何想获取的东西,也可以在HttpContext写入需要返回客户端的信息.但是这些 ...

  3. java内存模型-基础

    基础 并发编程模型的分类 在并发编程中,我们需要处理两个关键问题:线程之间如何通信及线程之间如何同步(这里的线程是指并发执行的活动实体).通信是指线程之间以何种机制来交换信息.在命令式编程中,线程之间 ...

  4. reset

    html, body, div, span, applet, object, iframe, h1, h2, h3, h4, h5, h6, p, blockquote, pre, a, abbr, ...

  5. 如何订阅Form的自定义事件

    Window Form类有很多的属性/方法和事件,其中事件属于一种发布订阅模式 .订阅发布模式定义了一种一对多的依赖关系,让多个订阅者对象同时监听某一个主体对象.这个主体对象在自身状态变化时,会通知所 ...

  6. Restive.js – 轻松让网站变成响应式和自适应

    Restive.js 是一个 jQuery 插件,可以帮助您轻松快捷地添加响应式功能到你网站,适应几乎所有拥有 Web 功能的设备.使用设备检测,高级管理断点,以及方向管理的组合,Restive.js ...

  7. PyInstaller编译python3时使用的详细参数介绍

    继续翻译中.... The syntax of the pyinstaller command is: pyinstaller [options] script [script ...] | spec ...

  8. [DeviceOne开发]-轮播图和多模板的简单示例

    一.简介 这个例子是利用Slideview组件实现循环轮播的效果,同时这个slideview作为一个listview的最上面的一行数, 1. listview有2个模板,一个是以slideview为核 ...

  9. C/C++构建系统 CMake

    Cmake实践 Cmake Practice –Cjacker cmake是kitware公司以及一些开源开发者在开发几个工具套件(VTK)的过程中衍 生品,最终形成体系,成为一个独立的开放源代码项目 ...

  10. 转:jQuery.data

    原文地址:http://www.it165.net/pro/html/201404/11922.html 内存泄露 首先看看什么是内存泄露,这里直接拿来Aaron中的这部分来说明什么是内存泄露,内存泄 ...