python 比对PDF文件

基本思路：

1.读取pdf内容，存放到不同的 list

2.比较 list 的相似度

------------------------ 实现-------------------------

1.PDF 文件读取，使用库 pdfminer

def get_txt_from_pdf(path, file_name):

    # 获取文档对象

    fp = open(os.path.join(path, file_name), "rb")

    # 创建一个PDF文档解释器

    parser = PDFParser(fp)

    # PDF文档的对象

    doc = PDFDocument()

    # 连接解释器和文档对象

    parser.set_document(doc)

    doc.set_parser(parser)

    # 初始化文档

    doc.initialize('')

    # 创建PDF资源管理器

    resource = PDFResourceManager()

    # 参数分析器

    laparam = LAParams()

    # 创建一个聚合器

    device = PDFPageAggregator(resource, laparams=laparam)

    # 创建PDF页面解释器

    interpreter = PDFPageInterpreter(resource, device=device)

    result = []

    # 使用文档对象得到页面的集合

    for page in doc.get_pages():

        # 使用页面解释器来读取

        interpreter.process_page(page)

        # 使用聚合器来获取内容

        layout = device.get_result()

        for out in layout:

            if hasattr(out, "get_text"):

                result.append(out.get_text())

    return result

借鉴自：https://www.cnblogs.com/banshaohuan/p/6877931.html

2.相似度比较，用 difflib 库

## 核心代码 ##
##############################

b_content = pldCommon.get_txt_from_pdf(benchmark_file_path, self.file_name)

t_content = pldCommon.get_txt_from_pdf(temp_file_path, self.file_name)

# 对比

diff = difflib.SequenceMatcher(None, b_content, t_content)

similarity_rate = diff.ratio()

3.如果相似度不为1，自行用beyond compare对比。也可以用 difflib.HtmlDiff() 生成对比文件

python 比对PDF文件的更多相关文章

基于Python实现对PDF文件的OCR识别
http://www.jb51.net/article/89955.htm https://pythontips.com/2016/02/25/ocr-on-pdf-files-using-pytho ...
C#调用Python脚本打印pdf文件
介绍:通过pdf地址先将文件下载到本地,然后调用打印机打印,最后将下载的文件删除. 环境:windows系统.(windows64位) windows系统中安装python3.6.2环境资料: O ...
Python数据生成pdf文件
sklearn实战-乳腺癌细胞数据挖掘 https://study.163.com/course/introduction.htm?courseId=1005269003&utm_campai ...
使用Python批量合并PDF文件(带书签功能)
网上找了几个合并pdf的软件,发现不是很好用,一般都没有添加书签的功能. 又去找了下python合并pdf的脚本,发现也没有添加书签的功能的. 于是自己动手编写了一个小工具,使用了PyPDF2. 下面 ...
【转】Python编程: 多个PDF文件合并以及网页上自动下载PDF文件
1. 多个PDF文件合并1.1 需求描述有时候,我们下载了多个PDF文件, 但希望能把它们合并成一个PDF文件.例如:你下载的数个PDF文件资料或者电子发票,你可以使用python程序合并成一个PDF ...
Python绘制PDF文件~超简单的小程序
Python绘制PDF文件项目简介这次项目很简单,本次项目课,代码不超过40行,主要是使用 urllib和reportlab模块,来生成一个pdf文件. reportlab官方文档 http:// ...
nodejs将PDF文件转换成txt文本，并利用python处理转换后的文本文件
目前公司Web服务端的开发是用Nodejs,所以开发功能的话首先使用Nodejs,这也是为什么不直接用python转换的原因. 由于node对文本的处理(提取所需信息)的能力不强,类似于npm上的包: ...
Python应用——自定义函数：分割PDF文件函数
案例将一个 pdf 文件按要求分割为几个部分.比如说一个pdf有20页,分成5个pdf文件,每个pdf文件包含4页.设计函数实现? Python代码 from PyPDF2 import PdfFi ...
深入学习Python解析并解密PDF文件内容的方法
前面学习了解析PDF文档,并写入文档的知识,那篇文章的名字为深入学习Python解析并读取PDF文件内容的方法. 链接如下:https://www.cnblogs.com/wj-1314/p/9429 ...

随机推荐

Unknown system variable 'query_cache_size'
java连接mysql 报错 java.sql.SQLException: Unknown system variable 'query_cache_size'at com.mysql.cj.jdbc ...
mongodb 数据更新命令、操作符
一.Mongodb数据更新命令 Mongodb更新有两个命令:update.save. 1.1update命令 update命令格式: db.collection.update(criteria,ob ...
ListView在编辑状态下不能获取修改后的值，无法更新数据
ListView在编辑状态下不能获取修改后的值,获取到的总是以前的值解决方法:在page_load事件里写: if(!IsPostBack) { ListViewBind(); } 原因:这涉及到as ...
【MYSQL】存储过程示例
GROUPEMP_EXISTS: ), ), )) LANGUAGE SQL NOT DETERMINISTIC CONTAINS SQL SQL SECURITY DEFINER COMMENT ' ...
PAT 甲级 1014 Waiting in Line (30 分)（queue的使用，模拟题，有个大坑）
1014 Waiting in Line (30 分) Suppose a bank has N windows open for service. There is a yellow line ...
每次开机后需要重新连接wifi才能上网
这几天打开电脑后,每次都要重新连接wifi才能上网, 网上查到如下解决方法: 打开网络和共享中心->右键无线网络->配置->电源管理->允许计算机关闭此设备以节约电源(勾选去掉 ...
Thinking - 一些有效阅读的方法
有策略,忌盲目.讲方法,别蛮干! 1- 阅读方法 1.1 做好眼前事排除其他事项干扰,营造适合阅读的状态和环境,专注地投入阅读之中. 如果被一堆乱糟糟的事情烦扰,身心处于一个疲惫的状态,必然无法保持 ...
什么是UEFI
UEFI是什么?也许我们大多数用户对这个概念很模糊.uefi可以做什么,有什么具体的应用?虽然不知道具体是做什么的,但是我们经常会在BIOS设置中发现UEFI的踪迹.因为现在越来越多的电脑已经使用了U ...
基于Keras 的VGG16神经网络模型的Mnist数据集识别并使用GPU加速
这段话放在前面:之前一种用的Pytorch,用着还挺爽,感觉挺方便的,但是在最近文献的时候,很多实验都是基于Google 的Keras的,所以抽空学了下Keras,学了之后才发现Keras相比Pyto ...
nload 安装和使用
nload是一个很小巧的工具,用来监控当前系统的网速安装 MAC brew install nload Linux 下载地址:https://sourceforge.net/projects/nlo ...

python 比对PDF文件

python 比对PDF文件的更多相关文章

随机推荐

热门专题