【转】利用Python将多个PDF合并为一个

本脚本用来合并pdf文件，输出的pdf文件按输入的pdf文件名生成书签

使用示例如下：

python pdfmerge.py -p "D:\pdf-files" -o "merged-out.pdf" -b True'

示例说明：
要合并的pdf文件所在的路径： D:\pdf-files
合并后的pdf文件的输出文件名：merged-out.pdf
是否从pdf文件中导入书签的值：True
所用模块：PyPDF2，argparse及其他
测试环境：3.7.1
实现代码：

import os, sys, codecs

from argparse import ArgumentParser, RawTextHelpFormatter

from PyPDF2 import PdfFileReader, PdfFileWriter, PdfFileMerger

def getfilenames(filepath='',filelist_out=[],file_ext='all'):

    # 遍历filepath下的所有文件，包括子目录下的文件

    for fpath, dirs, fs in os.walk(filepath):

        for f in fs:

            fi_d = os.path.join(fpath, f)

            if  file_ext == 'all':

                filelist_out.append(fi_d)

            elif os.path.splitext(fi_d)[1] == file_ext:

                filelist_out.append(fi_d)

            else:

                pass

    return filelist_out

def mergefiles(path, output_filename, import_bookmarks=False):

    # 遍历目录下的所有pdf将其合并输出到一个pdf文件中，输出的pdf文件默认带书签，书签名为之前的文件名

    # 默认情况下原始文件的书签不会导入，使用import_bookmarks=True可以将原文件所带的书签也导入到输出的pdf文件中

    merger = PdfFileMerger()

    filelist = getfilenames(filepath=path, file_ext='.pdf')

    if len(filelist) == 0:

        print("当前目录及子目录下不存在pdf文件")

        sys.exit()

    for filename in filelist:

        f = codecs.open(filename, 'rb')

        file_rd = PdfFileReader(f)

        short_filename = os.path.basename(os.path.splitext(filename)[0])

        if file_rd.isEncrypted == True:

            print('不支持的加密文件：%s'%(filename))

            continue

        merger.append(file_rd, bookmark=short_filename, import_bookmarks=import_bookmarks)

        print('合并文件：%s'%(filename))

        f.close()

    out_filename=os.path.join(os.path.abspath(path), output_filename)

    merger.write(out_filename)

    print('合并后的输出文件：%s'%(out_filename))

    merger.close()

if __name__ == "__main__":

    description="\n本脚本用来合并pdf文件，输出的pdf文件按输入的pdf文件名生成书签\n使用示例如下："

    description=description+'\npython pdfmerge.py -p "D:\pdf-files" -o "merged-out.pdf" -b True'

    description=description+'\n\n'+"示例说明："

    description=description+'\n'+"要合并的pdf文件所在的路径： D:\pdf-files"

    description=description+'\n'+"合并后的pdf文件的输出文件名：merged-out.pdf"

    description=description+'\n'+"是否从pdf文件中导入书签的值：True"

    # 添加程序帮助，程序帮助支持换行符号

    parser = ArgumentParser(description=description, formatter_class=RawTextHelpFormatter)

    # 添加命令行选项

    parser.add_argument("-p", "--path",

                        dest="path",

                        default=".",

                        help="PDF文件所在目录")

    parser.add_argument("-o", "--output",

                        dest="output_filename",

                        default="merged.pdf

from：https://blog.csdn.net/FairyTale__/article/details/89037043

【转】利用Python将多个PDF合并为一个的更多相关文章

python 练习题：请利用Python内置的hex()函数把一个整数转换成十六进制表示的字符串
# -*- coding: utf-8 -*- # 请利用Python内置的hex()函数把一个整数转换成十六进制表示的字符串 n1 = 255 n2 = 1000 print(hex(n1)) pr ...
利用Python将多个PDF文件合并
from PyPDF2 import PdfFileMerger import os files = os.listdir()#列出目录中的所有文件 merger = PdfFileMerger() ...
利用python第三方库提取PDF文件的表格内容
小爬最近接到一个棘手任务:需要提取手机话费电子发票PDF文件中的数据.接到这个任务的第一时间,小爬决定搜集各个地区各个时间段的电子发票文件,看看其中的差异点.粗略统计下来,PDF文件的表格框架是统一的 ...
python基础===两个list合并成一个dict的方法
def Run(): list2 = [, , , , ]; list3 = ["a", "b", "c", "d",& ...
利用Python将文件进行分类整理
利用Python将文件进行分类整理功能根据一个文件夹中的文件类型建立相应的文件夹,将同一种类型的文件放在一个文件夹中. 实现思路主要用到 os 和 shutil 两个库,os 用来获取文件夹中的 ...
利用Python进行数据分析(12) pandas基础: 数据合并
pandas 提供了三种主要方法可以对数据进行合并: pandas.merge()方法:数据库风格的合并: pandas.concat()方法:轴向连接,即沿着一条轴将多个对象堆叠到一起: 实例方法c ...
利用python设计PDF报告，jinja2，whtmltopdf，matplotlib，pandas
转自:https://foofish.net/python-crawler-html2pdf.html 工具准备弄清楚了网站的基本结构后就可以开始准备爬虫所依赖的工具包了.requests.beau ...
参考《利用Python进行数据分析(第二版)》高清中文PDF+高清英文PDF+源代码
第2版针对Python 3.6进行全面修订和更新,涵盖新版的pandas.NumPy.IPython和Jupyter,并增加大量实际案例,可以帮助高效解决一系列数据分析问题. 第2版中的主要更新了Py ...
【转】Python编程: 多个PDF文件合并以及网页上自动下载PDF文件
1. 多个PDF文件合并1.1 需求描述有时候,我们下载了多个PDF文件, 但希望能把它们合并成一个PDF文件.例如:你下载的数个PDF文件资料或者电子发票,你可以使用python程序合并成一个PDF ...

随机推荐

python下调用c语言代码
1)首先,创建一个.c文件,其大体内容如下: 2 #include <Python.h> 99 char * extract(char * path) ...
git stash 缓存本地修改简介
当我们在使用git的时候,又是会有这种情况:当新的需求了的时候.我们需要为此需求新建一个分支,再次分支上进行修改,当经过测试,提交代码时,在将其合并到主分支,或生产分支上. 但是有时候也有失误的时候, ...
vs中找到接口和抽象类的具体实现类
如何找到接口和抽象类的具体实现类 1,可以使用:ctrl+k clrl+t打开调用层次结构窗口: 2,移动到实现节点: 3,然后可以转到具体实现: 第二种安装插件 ReSharper 第三种方法: 在 ...
如何使用Arduino和SIM900A GPRS / GSM模块将数据发送到Web服务器
今天我们在这里介绍一个非常有趣的项目,我们将使用Arduino开发板和GPRS将数据发送到SparkFun服务器.这是一个基于IoT的项目,我们将使用GSM模块SIM900A将一些数据发送到互联网上的 ...
网站检测空链、死链工具（Xenu）
网站常用检测空链.死链工具,Xenu是很小但是功能强大的检查网站404链接的软件,支持多线程,无需安装可直接打开使用.步骤如下: 网站的链接一般都成千上万,如果存在大量的空链接将大大的影响用户体验,怎 ...
01 浅谈c++及面向对象编程
参考链接: 学习完c++但是对c++面向对象编程还是比较模糊,现在花时间总体来总结一下: c++中的对象是使用类来定义的,下面先重点讲一下类的概念. 说到类就要先说一下类的三种特性:封装,继承,多态. ...
3. 控制反转(IoC)和依赖注入(DI)
1).控制反转是应用于软件工程领域中的,在运行时被装配器对象来绑定耦合对象的一种编程技巧,对象之间耦合关系在编译时通常是未知的.在传统的编程方式中,业务逻辑的流程是由应用程序中的早已被设定好关联关系的 ...
谈谈javascript中的prototype与继承
谈谈javascript中的prototype与继承今天想谈谈javascript中的prototype. 通常来说,javascript中的对象就是一个指向prototype的指针和一个自身的属性 ...
Default Trace 查找日志文件快速增长的原因
select loginname, loginsid, spid, hostname, applicationname, servername, databasename, objectname, e ...
(转载) SQL Server AG集群启动不起来的临时自救大招
背景前晚一朋友遇到AG集群发生来回切换不稳定的情况,情急之下,朋友在命令行使用命令重启WSFC集群结果重启WSFC集群之后,非但没有好转,导致整个AG无法启动,主副本和辅助副本都处于正在解析的状态 ...

【转】利用Python将多个PDF合并为一个

【转】利用Python将多个PDF合并为一个的更多相关文章

随机推荐

热门专题