基于java处理.docx格式的word合并

如下实例是将 2.docx和3.docx合并，写到empty.docx中，不适用于.doc格式，

public static void main(String[] args) {
    File file1 = new File("D:\\empty.docx");
    List<File> targetFile1 = new ArrayList<>();
    targetFile1.add(new File("D:\\2.docx"));
    targetFile1.add(new File("D:\\3.docx"));
    appendDocx(file1, targetFile1);
}

/**
 * 把多个docx文件合并成一个
 *
 * @param outfile    输出文件
 * @param targetFile 目标文件
 */
public static void appendDocx(File outfile, List<File> targetFile) {
    try {
        OutputStream dest = new FileOutputStream(outfile);
        ArrayList<XWPFDocument> documentList = new ArrayList<>();
        XWPFDocument doc = null;
        for (int i = 0; i < targetFile.size(); i++) {
            FileInputStream in = new FileInputStream(targetFile.get(i).getPath());
            OPCPackage open = OPCPackage.open(in);
            XWPFDocument document = new XWPFDocument(open);
            documentList.add(document);
        }
        for (int i = 0; i < documentList.size(); i++) {
            doc = documentList.get(0);
            if (i != 0) {
               /* if (i != documentList.size() - 1) {
                    documentList.get(i).createParagraph().setPageBreak(true);
                }*/

                appendBody(doc, documentList.get(i));
            }
        }
        //doc.createParagraph().setPageBreak(true);
        doc.write(dest);
    } catch (Exception e) {
        e.printStackTrace();
    }
}

public static void appendBody(XWPFDocument src, XWPFDocument append) throws Exception {
    CTBody src1Body = src.getDocument().getBody();
    CTBody src2Body = append.getDocument().getBody();

    List<XWPFPictureData> allPictures = append.getAllPictures();
    // 记录图片合并前及合并后的ID
    Map<String, String> map = new HashMap<>();
    for (XWPFPictureData picture : allPictures) {
        String before = append.getRelationId(picture);
        //将原文档中的图片加入到目标文档中
        String after = src.addPictureData(picture.getData(), Document.PICTURE_TYPE_PNG);
        map.put(before, after);
    }

    appendBody(src1Body, src2Body, map);

}

private static void appendBody(CTBody src, CTBody append, Map<String, String> map) throws Exception {
    XmlOptions optionsOuter = new XmlOptions();
    optionsOuter.setSaveOuter();
    String appendString = append.xmlText(optionsOuter);

    String srcString = src.xmlText();
    String prefix = srcString.substring(0, srcString.indexOf(">") + 1);
    String mainPart = srcString.substring(srcString.indexOf(">") + 1, srcString.lastIndexOf("<"));
    String sufix = srcString.substring(srcString.lastIndexOf("<"));
    String addPart = appendString.substring(appendString.indexOf(">") + 1, appendString.lastIndexOf("<"));
//下面这部分可以去掉，我加上的原因是合并的时候，有时候出现打不开的情况，对照document.xml将某些标签去掉就可以正常打开了
    addPart = addPart.replaceAll("w14:paraId=\"[A-Za-z0-9]{1,10}\"", "");
    addPart = addPart.replaceAll("w14:textId=\"[A-Za-z0-9]{1,10}\"", "");
    addPart = addPart.replaceAll("w:rsidP=\"[A-Za-z0-9]{1,10}\"", "");
    addPart = addPart.replaceAll("w:rsidRPr=\"[A-Za-z0-9]{1,10}\"", "");
    addPart = addPart.replace("<w:headerReference r:id=\"rId8\" w:type=\"default\"/>","");
    addPart = addPart.replace("<w:footerReference r:id=\"rId9\" w:type=\"default\"/>","");
    addPart = addPart.replace("xsi:nil=\"true\"","");

    if (map != null && !map.isEmpty()) {
        //对xml字符串中图片ID进行替换
        for (Map.Entry<String, String> set : map.entrySet()) {
            addPart = addPart.replace(set.getKey(), set.getValue());
        }
    }
    //将两个文档的xml内容进行拼接
    CTBody makeBody = CTBody.Factory.parse(prefix + mainPart + addPart + sufix);

    src.set(makeBody);
}

基于java处理.docx格式的word合并的更多相关文章

基于java 合并.doc和docx格式的Word文件
注:摘录自 https://www.cnblogs.com/shenzhouyh/articles/7243805.html 之前用过jacob 合并.doc,但是是有jacob有弊端: 服务器必须是 ...
java导出2007版word（docx格式）freemarker + xml 实现
http://blog.csdn.net/yigehui12/article/details/52840121 Freemarker+xml生成docx 原理概述:word从2003版就支持xml格式 ...
Java 读取txt文件生成Word文档
本文将以Java程序代码为例介绍如何读取txt文件中的内容,生成Word文档.在编辑代码前,可参考如下代码环境进行配置: IntelliJ IDEA Free Spire.Doc for Java T ...
Java导出带格式的Excel数据到Word表格
前言在Word中创建报告时,我们经常会遇到这样的情况:我们需要将数据从Excel中复制和粘贴到Word中,这样读者就可以直接在Word中浏览数据,而不用打开Excel文档.在本文中,您将学习如何使用 ...
基于springboot的freemarker创建指定格式的word文档
在web或其他应用中,经常我们需要导出或者预览word文档,比较实际的例子有招聘网站上预览或者导出个人简历,使用POI导出excel会非常的方便,但是如果想导出word,由于其格式控制非常复杂,故而使 ...
java使用freemarker模板导出word（带有合并单元格）文档
来自:https://blog.csdn.net/qq_33195578/article/details/73790283 前言:最近要做一个导出word功能,其实网上有很多的例子,但是我需要的是合并 ...
Lucene：基于Java的全文检索引擎简介
Lucene:基于Java的全文检索引擎简介 Lucene是一个基于Java的全文索引工具包. 基于Java的全文索引/检索引擎--Lucene Lucene不是一个完整的全文索引应用,而是是一个用J ...
Lucene：基于Java的全文检索引擎简介 (zhuan)
http://www.chedong.com/tech/lucene.html ********************************************** Lucene是一个基于Ja ...
基于java平台的常用资源整理
这里整理了基于java平台的常用资源翻译 from :akullpp | awesome-java 大家一起学习,共同进步. 如果大家觉得有用,就mark一下,赞一下,或评论一下,让更多的人知道.t ...

随机推荐

JavaScript交互式网页设计笔记 • 【目录】
章节内容实践练习 JavaScript交互式网页设计作业目录(作业笔记) 第1章 JavaScript交互式网页设计笔记 • [第1章 JavaScript基本语法] 第2章 JavaScript ...
Java常用的开发库推荐
我是3y,一年CRUD经验用十年的markdown程序员‍ 今天来讲讲来给大家聊聊开发提速的东西了:工具包.Lombok和常用库 01.什么是工具包基本上,每个项目里都有一个包,叫做utils.这个 ...
C#中CancellationToken和CancellationTokenSource用法
之前做开发时,一直没注意这个东西,做了.net core之后,发现CancellationToken用的越来越平凡了. 这也难怪,原来.net framework使用异步的不是很多,而.net cor ...
windows 找不到文件gpedit.msc
前言: 最新在装一个软件的时候,需要更改本地组的一些内容,win+R输入gpedit.msc,提示找不到文件. 解决: 第一种方法:笔者电脑是window10 家庭版,试了网上新建一个txt文件,写入 ...
Flask_Jinja2模板（九）
在前面的示例中,视图函数的主要作用是生成请求的响应,这是最简单的请求.实际上,视图函数有两个作用:处理业务逻辑和返回响应内容.在大型应用中,把业务逻辑和表现内容放在一起,会增加代码的复杂度和维护成本. ...
systemd学习及使用
什么是systemd? (译)systemd是linux系统的一组基础构件块.它提供了一个系统和服务的管理,它以PID 1 的形式运行并启动系统的其余部分.systemd 使用积极的并行化功能,使用s ...
一个高性能跨平台基于Python的Waitress WSGI Server的介绍！
对于Python来说,它有很多web框架,常见的有jango.Flask.Tornado .sanic等,比如Odoo.Superset都基于Flask框架进行开发的开源平台,具有强大的功能.在Lin ...
HIVE理论学习笔记
概述参加了新的公司新的工作新的环境之后,本人必须学习更多的知识,所以稳固之前的知识和学习新的知识是重中之重,新的公司把hadoop大部分的组件都进行了架构源码深度改造,所以使用过程确实遇到一些麻烦, ...
Apache Shiro反序列化远程代码执行复现
最近也是看shiro漏洞比较多,所以自己也在本地复现了一下,拿出来与大家一起分享 0x00 关于Apache Shiro Apache shiro是一个Java安全框架,提供了认证.授权.加密和会话管 ...
php中使用CURL之php curl详解
curl是个什么东西?简单地说就是,curl是一个库,能让你通过URL和许多不同种的服务器进行勾搭.搭讪和深入交流,并且还支持许多协议.并且人家还说了curl可以支持https认证.http post ...

基于java处理.docx格式的word合并

基于java处理.docx格式的word合并的更多相关文章

随机推荐

热门专题