修改、编辑pdf

Python 操作 PDF 会用到两个库，分别是：PyPDF2 和 pdfplumber

其中 PyPDF2 可以更好的读取、写入、分割、合并PDF文件，而 pdfplumber 可以更好的读取 PDF 文件中内容和提取 PDF 中的表格

pip install PyPDF2

pip install pdfplumber

1、批量拆分

import os

from PyPDF2 import PdfFileWriter, PdfFileReader

def split_pdf(filename, filepath, save_dirpath, step=5):

    """

    拆分PDF为多个小的PDF文件，

    @param filename:文件名

    @param filepath:文件路径

    @param save_dirpath:保存小的PDF的文件路径

    @param step: 每step间隔的页面生成一个文件，例如step=5，表示0-4页、5-9页...为一个文件

    @return:

    """

    if not os.path.exists(save_dirpath):

        os.mkdir(save_dirpath)

    pdf_reader = PdfFileReader(filepath)

    # 读取每一页的数据

    pages = pdf_reader.getNumPages()

    for page in range(0, pages, step):

        pdf_writer = PdfFileWriter()

        # 拆分pdf，每 step 页的拆分为一个文件

        for index in range(page, page+step):

            if index < pages:

                pdf_writer.addPage(pdf_reader.getPage(index))

        # 保存拆分后的小文件

        save_path = os.path.join(save_dirpath, filename+str(int(page/step)+1)+'.pdf')

        print(save_path)

        with open(save_path, "wb") as out:

            pdf_writer.write(out)

    print("文件已成功拆分，保存路径为："+save_dirpath)

split_pdf(filename, filepath, save_dirpath, step=5)

以“易方达中小盘混合型证券投资基金2020年中期报告”为例，整个 PDF 文件一共 46 页，每5页为间隔，最终生成了10个小的 PDF 文件

2、 批量合并

mport os

from PyPDF2 import PdfFileReader, PdfFileWriter

def concat_pdf(filename, read_dirpath, save_filepath):

    """

    合并多个PDF文件

    @param filename:文件名

    @param read_dirpath:要合并的PDF目录

    @param save_filepath:合并后的PDF文件路径

    @return:

    """

    pdf_writer = PdfFileWriter()

    # 对文件名进行排序

    list_filename = os.listdir(read_dirpath)

    list_filename.sort(key=lambda x: int(x[:-4].replace(filename, "")))

    for filename in list_filename:

        print(filename)

        filepath = os.path.join(read_dirpath, filename)

        # 读取文件并获取文件的页数

        pdf_reader = PdfFileReader(filepath)

        pages = pdf_reader.getNumPages()

        # 逐页添加

        for page in range(pages):

            pdf_writer.addPage(pdf_reader.getPage(page))

    # 保存合并后的文件

    with open(save_filepath, "wb") as out:

        pdf_writer.write(out)

    print("文件已成功合并，保存路径为："+save_filepath)

concat_pdf(filename, read_dirpath, save_filepath)

3、提取文字内容

import os

import pdfplumber

def extract_text_info(filepath):

    """

    提取PDF中的文字

    @param filepath:文件路径

    @return:

    """

    with pdfplumber.open(filepath) as pdf:

        # 获取第2页数据

        page = pdf.pages[1]

        print(page.extract_text())

# 提取文字内容

extract_text_info(filepath)

而如果想要提取所有页的文字，只需要改成：

with pdfplumber.open(filepath) as pdf:

 # 获取全部数据

 for page in pdf.pages

     print(page.extract_text())

4、提取表格内容

import os

import pandas as pd

import pdfplumber

def extract_table_info(filepath):

    """

    提取PDF中的图表数据

    @param filepath:

    @return:

    """

    with pdfplumber.open(filepath) as pdf:

        # 获取第18页数据

        page = pdf.pages[17]

        # 如果一页有一个表格，设置表格的第一行为表头，其余为数据

        table_info = page.extract_table()

        df_table = pd.DataFrame(table_info[1:], columns=table_info[0])

        df_table.to_csv('dmeo.csv', index=False, encoding='gbk')

# 提取表格内容

extract_table_info(filepath)

但是，如果说第 18 页有多个表格内容呢？

因为读取的表格会被存成二维数组，而多个二维数组就组成一个三维数组

遍历这个三位数组，就可以得到该页的每一个表格数据，对应的将 extract_table 函数 改成 extract_tables 即可

# 如果一页有多个表格，对应的数据是一个三维数组

tables_info = page.extract_tables()

for index in range(len(tables_info)):

    # 设置表格的第一行为表头，其余为数据

    df_table = pd.DataFrame(tables_info[index][1:], columns=tables_info[index][0])

    print(df_table)

    # df_table.to_csv('dmeo.csv', index=False, encoding='gbk')

5、提取图片内容

import os

import re

import fitz

def extract_pic_info(filepath, pic_dirpath):

    """

    提取PDF中的图片

    @param filepath:pdf文件路径

    @param pic_dirpath:要保存的图片目录路径

    @return:

    """

    if not os.path.exists(pic_dirpath):

        os.makedirs(pic_dirpath)

    # 使用正则表达式来查找图片

    check_XObject = r"/Type(?= */XObject)"

    check_Image = r"/Subtype(?= */Image)"

    img_count = 0

    """1. 打开pdf，打印相关信息"""

    pdf_info = fitz.open(filepath)

    # 1.16.8版本用法 xref_len = doc._getXrefLength()

    # 最新版本

    xref_len = pdf_info.xref_length()

    # 打印PDF的信息

    print("文件名：{}, 页数: {}, 对象: {}".format(filepath, len(pdf_info), xref_len-1))

    """2. 遍历PDF中的对象，遇到是图像才进行下一步，不然就continue"""

    for index in range(1, xref_len):

        # 1.16.8版本用法 text = doc._getXrefString(index)

        # 最新版本

        text = pdf_info.xref_object(index)

        is_XObject = re.search(check_XObject, text)

        is_Image = re.search(check_Image, text)

        # 如果不是对象也不是图片，则不操作

        if is_XObject or is_Image:

            img_count += 1

            # 根据索引生成图像

            pix = fitz.Pixmap(pdf_info, index)

            pic_filepath = os.path.join(pic_dirpath, 'img_' + str(img_count) + '.png')

            """pix.size 可以反映像素多少，简单的色素块该值较低，可以通过设置一个阈值过滤。以阈值 10000 为例过滤"""

            # if pix.size < 10000:

            #     continue

            """三、 将图像存为png格式"""

            if pix.n >= 5:

                # 先转换CMYK

                pix = fitz.Pixmap(fitz.csRGB, pix)

            # 存为PNG

            pix.writePNG(pic_filepath)

# 提取图片内容

extract_pic_info(filepath, pic_dirpath)

6、转换为图片

pip install pdf2image

import os

from pdf2image import convert_from_path, convert_from_bytes

def convert_to_pic(filepath, pic_dirpath):

    """

    每一页的PDF转换成图片

    @param filepath:pdf文件路径

    @param pic_dirpath:图片目录路径

    @return:

    """

    print(filepath)

    if not os.path.exists(pic_dirpath):

        os.makedirs(pic_dirpath)

    images = convert_from_bytes(open(filepath, 'rb').read())

    # images = convert_from_path(filepath, dpi=200)

    for image in images:

        # 保存图片

        pic_filepath = os.path.join(pic_dirpath, 'img_'+str(images.index(image))+'.png')

        image.save(pic_filepath, 'PNG')

# PDF转换为图片

convert_to_pic(filepath, pic_dirpath)

7、添加水印

pip install PyPDF2

import os

from copy import copy

from PyPDF2 import PdfFileReader, PdfFileWriter

if __name__ == '__main__':

    dirpath = 'pdf_file'

    filename = '易方达中小盘混合型证券投资基金2020年中期报告'

    filepath = os.path.join(dirpath, filename+'.pdf')

    """添加水印"""

    watermark_filepath = os.path.join(dirpath, 'watermark.pdf')

    save_filepath = os.path.join(dirpath, filename+'【带水印】.pdf')

    """读取PDF水印文件"""

    # 可以先生成一个空白A4大小的png图片，通过 https://mp.weixin.qq.com/s/_oJA6lbsdMlRRsBf6DPxsg 教程的方式给图片加水印，将图片插入到word中并最终生成一个水印PDF文档

    watermark = PdfFileReader(watermark_filepath)

    watermark_page = watermark.getPage(0)

    pdf_reader = PdfFileReader(filepath)

    pdf_writer = PdfFileWriter()

    for page_index in range(pdf_reader.getNumPages()):

        current_page = pdf_reader.getPage(page_index)

        # 封面页不添加水印

        if page_index == 0:

            new_page = current_page

        else:

            new_page = copy(watermark_page)

            new_page.mergePage(current_page)

        pdf_writer.addPage(new_page)

    # 保存水印后的文件

    with open(save_filepath, "wb") as out:

        pdf_writer.write(out)

8、文档加密与解密

import os

from PyPDF2 import PdfFileReader, PdfFileWriter

def encrypt_pdf(filepath, save_filepath, passwd='xiaoyi'):

    """

    PDF文档加密

    @param filepath:PDF文件路径

    @param save_filepath:加密后的文件保存路径

    @param passwd:密码

    @return:

    """

    pdf_reader = PdfFileReader(filepath)

    pdf_writer = PdfFileWriter()

    for page_index in range(pdf_reader.getNumPages()):

        pdf_writer.addPage(pdf_reader.getPage(page_index))

    # 添加密码

    pdf_writer.encrypt(passwd)

    with open(save_filepath, "wb") as out:

        pdf_writer.write(out)

# 文档加密

encrypt_pdf(filepath, save_filepath, passwd='xiaoyi')

----------------------------------------------------------------------------

def decrypt_pdf(filepath, save_filepath, passwd='xiaoyi'):

    """

    解密 PDF 文档并且保存为未加密的 PDF

    @param filepath:PDF文件路径

    @param save_filepath:解密后的文件保存路径

    @param passwd:密码

    @return:

    """

    pdf_reader = PdfFileReader(filepath)

    # PDF文档解密

    pdf_reader.decrypt('xiaoyi')

    pdf_writer = PdfFileWriter()

    for page_index in range(pdf_reader.getNumPages()):

        pdf_writer.addPage(pdf_reader.getPage(page_index))

    with open(save_filepath, "wb") as out:

        pdf_writer.write(out)

# 文档解密

decrypt_pdf(filepath, save_filepath, passwd='xiaoyi')

修改、编辑pdf的更多相关文章

PDF文件怎么修改，PDF文件编辑方法
PDF文件是一种独特的文件,在日常办公中已经成为我们使用最广泛的电子文档格式.在使用PDF文件中会遇到PDF文件有错区的时候,再从新制作一个PDF文件会比较麻烦,只能通过工具来对PDF文件进行修改,这 ...
怎么编辑PDF文件内容，PDF文件编辑方法
怎样编辑PDF文件内容?这是一个常常困扰我们的问题,工作当中我们经常会收到PDF格式的文件,但有时的文件内容不是我们想要的或者是觉得不合理的需要改掉.但是每次有这样的问题时都没有什么好的解决方法,每次 ...
怎么编辑PDF，如何给PDF加水印
在使用PDF文件的时候,往往会用到PDF编辑器来修改,那么,在使用PDF编辑器修改文件的时候,想要在文件中添加水印,这该怎么操作呢,不会的小伙伴可以看看下面的文章了哦,说不定就会了. 1.打开运行PD ...
如何编辑PDF文件，怎么使用PDF裁剪页面工具
在编辑PDF文件的时候,往往会有很多的小技巧可以使用,在编辑PDF文件的时候,怎么对文件的页面进行裁剪呢,不会的话,看看下面的文章吧,小编已经为大家整理好了哦. 1.打开运行PDF编辑器,在编辑器中打 ...
ubuntu 编辑pdf
参考:https://www.2cto.com/kf/201710/689121.html Ubuntu下几个功能比较全面的PDF编辑工具. 1.flpsed flpsed是一个WYSIWYG的“伪” ...
Linux下如何编辑pdf文件目录
目前,我使用的是系统LinuxMint,之前硬盘没坏时都是用Foxit Reader和Okular查看pdf文件,可是后来发现Foxit Reader十分吃CPU,而且现在换了固态硬盘之后只有120G ...
ABBYY FineReader 15 查看和编辑PDF
使用ABBYY FineReader 15(Windows系统)OCR文字识别软件,用户可轻松查看和编辑各种类型的PDF数字文档,并可在文档中添加注释.添加与删除文字.格式化文字.搜索内容.保护PDF ...
Win10修改编辑文件无法保存怎么办（没有权限）
Win10修改编辑hosts文件无法保存怎么办修改一些系统文件无法保存说明这个账户没有“写”这个权限这里以hosts文件为例,为账户增加读写权限: 首先进入Win10系统的hosts文件所在位置 ...
Confluence 6 管理协同编辑 - 修改编辑模式
编辑模式确定了你站点所有用户使用协同编辑的体验,这个是你对协同编辑进行启用和关闭的地方. 希望修改编辑模式: 进入 > 基本配置(General Configuration) > 协同编 ...
编辑方法分享之如何编辑PDF文件内容
我们现在在工作中会经常使用到PDF文件,还会有遇到需要编辑PDF文件的时候,PDF文件的编辑问题一直是个大难题.很多朋友在面对PDF文件的时候束手无策,不知道该怎么对它进行编辑.下面小编就教给大家一个 ...

随机推荐

css3自动滚动
<!DOCTYPE html> <html lang="en"><div class="wrap"> <ul clas ...
常用的"小脚本"-json数据处理
小背景: 我们公司项目中的小脚本是一些工具类,比如常用的是MapUtil工具类的一些方法写公司的MapUtil工具类的方法要注意,方法名的命名,因为方法名,在公司的项目的某个业务流程有对方法名的进行 ...
.NET静态代码织入——肉夹馍（Rougamo）发布1.4.0
肉夹馍(https://github.com/inversionhourglass/Rougamo)通过静态代码织入方式实现AOP的组件,其主要特点是在编译时完成AOP代码织入,相比动态代理可以减少应 ...
Oracle DataGuard 出现 GAP 修复
下面我们通过实验来进行演示如何修复: 一.主库切几个最新的归档,然后手工删掉,重新开启DG同步. 1.备库关闭应用日志和数据库 SQL> ALTER DATABASE RECOVER MANAG ...
nginx 安全漏洞(CVE-2021-23017) 版本升级
查看当前nginx版本信息 # ./sbin/nginx -V nginx version: nginx/1.20.1 built by gcc 4.8.5 20150623 (Red Hat 4.8 ...
k8s网路策略
Network Policy(网络策略) 默认情况下,k8s集群网络是没有任何限制的,Pod可以和任何其他Pod通信,在某些场景下需要做网络控制,减少网络面的攻击,提高安全性,就会用到网络策略(Net ...
IT之软件公司组织架构
总结一下软件企业的组织架构,软件公司大部分都很年轻,整个行业还在调整期,一般规模都在300人以内,现在国内大型的软件产品公司都不是靠软件起家的,国内软件三强:华为.中信.海尔都是从硬件甚至是家电做起的 ...
打卡ts day01 数据类型，类
一,环境 1 新增的数据类型和部分语法,没有办法在浏览器和node 中执行,需要安装typescript 环境安装:npm i -g typescript 成功:tsc -v 2 在浏览器中使用ts ...
UISelector
1.UiSelector的基本方法 UiSelector对象可以理解为一种条件对象,描述的是一种条件,可以配合UiObject使用得到某个符合条件的控件对象. 所有的方法都是public的,且都返回U ...
Loading Methods
Datasets datasets.list_datasets return:List all the datasets scripts available on the Hugging Face H ...

修改、编辑pdf

修改、编辑pdf的更多相关文章

随机推荐

热门专题