python自动化之PDF
###################################处理PDF和Word文档###################################
'''
PDF和Word文档是二进制文件,除了文本之外,
它们还保存了许多字体、颜色和布局信息
'''
'''
从PDF提取文本
'''
###################################从PDF提取文本###################################
import PyPDF2
pdfFileObj=open(r'C:\Users\Administrator\Desktop\test.pdf','rb')
pdfReader=PyPDF2.PdfFileReader(pdfFileObj)
pdfReader.numPages
pageObj=pdfReader.getPage(0)
pageObj.extractText()
###################################解压PDF#########################################
import PyPDF2
pdfReader=PyPDF2.PdfFileReader(open(r'C:\Users\Administrator\Desktop\test.pdf','rb'))
pdfReader.isEncrypted ####是否加密
pdfReader.getPage(0)
pdfReader.decrypt('rosebud') ####提供解密口令
pageObj=pdfReader.getPage(0)
###################################创建PDF#########################################
'''
PyPDF2不能将任意文本写入PDF:
PyPDF2写入PDF的能力,仅限于从其他PDF中拷贝页面、旋转页面、重叠页面和加密文件
'''
'''
一般方式:
1、打开一个或多个已用的PDF(源PDF),得到PdfFileReader对象
2、创建一个新的PdfFileWriter对象
3、将页面从PdfFileReader对象拷贝到PdfFileWriter对象中
4、利用PdfFileWriter对象写入输出的PDF
'''
#####################################################拷贝页面###########################################################
def merge(pdf_one, pdf_two, filename='my.pdf',output_dir=r'C:\Users\Administrator\Desktop'):
input_one = file(pdf_one, 'rb')
input_two = file(pdf_two, 'rb')
pdf_input_one = PyPDF2.PdfFileReader(input_one)
pdf_input_two = PyPDF2.PdfFileReader(input_two)
numOne = pdf_input_one.getNumPages()
numTwo = pdf_input_two.getNumPages()
print numOne, numTwo
pdf_output = PyPDF2.PdfFileWriter()
for pageNum in range(numOne):
print 'hereo'
pageObj=pdf_input_one.getPage(pageNum)
pdf_output.addPage(pageObj)
for pageNum in range(numTwo):
print 'heret'
pageObj=pdf_input_two.getPage(pageNum)
pdf_output.addPage(pageObj)
pdf_name = output_dir+filename
print pdf_name
output_stream = file( pdf_name,'wb')
pdf_output.write(output_stream)
output_stream.close()
input_one.close()
input_two.close()
print 'Done!'
merge(r'C:\Users\Administrator\Desktop\Pairs_Trading_Quantitative Methods and Analysis.pdf',r'C:\Users\Administrator\Desktop\deMontjoye.SM.pdf')
#####################################################旋转页面###########################################################
'''
利用rotateClockwise()和rotateCounterClockwise()方法
PDF文档的页面也可以旋转90度的整数倍,向这些方法传入
整数90、180或270
'''
def merge(pdf_one, pdf_two, filename='my.pdf',output_dir=r'C:\Users\Administrator\Desktop'):
input_one = file(pdf_one, 'rb')
input_two = file(pdf_two, 'rb')
pdf_input_one = PyPDF2.PdfFileReader(input_one)
pdf_input_two = PyPDF2.PdfFileReader(input_two)
numOne = pdf_input_one.getNumPages()
numTwo = pdf_input_two.getNumPages()
print numOne, numTwo
pdf_output = PyPDF2.PdfFileWriter()
for pageNum in range(numOne):
print 'hereo'
pageObj=pdf_input_one.getPage(pageNum)
pageObj=pageObj.rotateClockwise(90)
pdf_output.addPage(pageObj)
for pageNum in range(numTwo):
print 'heret'
pageObj=pdf_input_two.getPage(pageNum)
pageObj=pageObj.rotateClockwise(90)
pdf_output.addPage(pageObj)
pdf_name = output_dir+filename
print pdf_name
output_stream = file( pdf_name,'wb')
pdf_output.write(output_stream)
output_stream.close()
input_one.close()
input_two.close()
print 'Done!'
merge(r'C:\Users\Administrator\Desktop\Pairs_Trading_Quantitative Methods and Analysis.pdf',r'C:\Users\Administrator\Desktop\deMontjoye.SM.pdf')
#####################################################叠加页面###########################################################
import PyPDF2
minutesFile=open(r'C:\Users\Administrator\Desktop\Pairs_Trading_Quantitative Methods and Analysis.pdf','rb')
pdfReader=PyPDF2.PdfFileReader(minutesFile)
minutesFirstPage=pdfReader.getPage(0)
pdfWatermarkReader=PyPDF2.PdfFileReader(open(r'C:\Users\Administrator\Desktop\deMontjoye.SM.pdf','rb'))
minutesFirstPage.mergePage(pdfWatermarkReader.getPage(0))
pdfWriter=PyPDF2.PdfFileWriter()
pdfWriter.addPage(minutesFirstPage)
for pageNum in range(1,pdfReader.numPages):
pageObj=pdfReader.getPage(pageNum)
pdfWriter.addPage(pageObj)
resultPdfFile=open(r'C:\Users\Administrator\Desktop\merge.pdf','wb')
pdfWriter.write(resultPdfFile)
minutesFile.close()
resultPdfFile.close()
#####################################################加密PDF###########################################################
import PyPDF2
pdfFile=file(r'C:\Users\Administrator\Desktop\deMontjoye.SM.pdf','rb')
pdfReader=PyPDF2.PdfFileReader(pdfFile)
pdfWriter=PyPDF2.PdfFileWriter()
for pageNum in range(pdfReader.numPages):
pdfWriter.addPage(pdfReader.getPage(pageNum))
pdfWriter.encrypt('swordfish')
resultPdf=file(r'C:\Users\Administrator\Desktop\t.pdf','wb')
pdfWriter.write(resultPdf)
resultPdf.close()
python自动化之PDF的更多相关文章
- Python自动化运维:技术与最佳实践 PDF高清完整版|网盘下载内附地址提取码|
内容简介: <Python自动化运维:技术与最佳实践>一书在中国运维领域将有“划时代”的重要意义:一方面,这是国内第一本从纵.深和实践角度探讨Python在运维领域应用的著作:一方面本书的 ...
- Python自动化运维 技术与最佳实践PDF高清完整版免费下载|百度云盘|Python基础教程免费电子书
点击获取提取码:7bl4 一.内容简介 <python自动化运维:技术与最佳实践>一书在中国运维领域将有"划时代"的重要意义:一方面,这是国内第一本从纵.深和实践角度探 ...
- Selenium2+python自动化43-判断title(title_is)
From: https://www.cnblogs.com/yoyoketang/p/6539117.html 前言 获取页面title的方法可以直接用driver.title获取到,然后也可以把获取 ...
- Selenium2+python自动化54-unittest生成测试报告(HTMLTestRunner)
前言 批量执行完用例后,生成的测试报告是文本形式的,不够直观,为了更好的展示测试报告,最好是生成HTML格式的. unittest里面是不能生成html格式报告的,需要导入一个第三方的模块:HTMLT ...
- Selenium2+python自动化61-Chrome您使用的是不受支持的命令行标记:--ignore-certificate-errors
前言 您使用的是不受支持的命令行标记:--ignore-certificate-errors.稳定性和安全性会有所下降 selenium2启动Chrome浏览器是需要安装驱动包的,但是不同的Chrom ...
- Selenium2+python自动化59-数据驱动(ddt)
前言 在设计用例的时候,有些用例只是参数数据的输入不一样,比如登录这个功能,操作过程但是一样的.如果用例重复去写操作过程会增加代码量,对应这种多组数据的测试用例,可以用数据驱动设计模式,一组数据对应一 ...
- Selenium2+python自动化55-unittest之装饰器(@classmethod)
前言 前面讲到unittest里面setUp可以在每次执行用例前执行,这样有效的减少了代码量,但是有个弊端,比如打开浏览器操作,每次执行用例时候都会重新打开,这样就会浪费很多时间. 于是就想是不是可以 ...
- Selenium2+python自动化52-unittest执行顺序
前言 很多初学者在使用unittest框架时候,不清楚用例的执行顺序到底是怎样的.对测试类里面的类和方法分不清楚,不知道什么时候执行,什么时候不执行. 本篇通过最简单案例详细讲解unittest执行顺 ...
- selenium3+python自动化50-环境搭建(firefox)
前言 有不少小伙伴在安装selenium环境后启动firefox报错,因为现在selenium升级到3.0了,跟2.0的版本还有有一点区别的. 安装环境过程中主要会遇到三个坑: 1.'geckodri ...
随机推荐
- Python2.7-fnmacth
fnmatch 模块,提供了对 Unix shell 的规则的支持,类似正则,但不一样,匹配的规则只有3条:*, ?, 在 [] 里的任意字符 模块方法: fnmatch.fnmatch(filena ...
- zookeeper&acticemq&redis&tomcat安装
zookeeper安装 配置hosts 下载 wget http://apache.fayea.com/zookeeper/zookeeper-3.4.6/zookeeper-3.4.6.tar. ...
- C#可空类型(转载)
在程序开发中,有时候需要值类型也为可空类型,比如,在数据库中,我们可以把一个日期Datetime设置为null. 在C# 2.0中就出现了可空类型,允许值类型也可以为空(null),可空类型的实现基于 ...
- 添加树莓派python程序自启动的方法
首先确保网络,硬件连接都正确.保证py程序可以正确运行. 然后远程登录树莓派 打开这个文件来修改自启动,网上有很多方法都是新建一个脚本来完成的.由于我们是自启动python文件,所以命令会有不同. 如 ...
- Exp02
使用netcat后门工具 原理示意图 使用netcat获取主机操作Shell,cron启动 Win获取Linux Shell Linux获取Win Shell cron启动 用man -k指令查看有关 ...
- 奔跑吧vivado
上一节一上来就是Linux,不是炫耀我们的MiZ702能跑Linux,而是为了方便的把外设一次性测试完.大家都知道MiZ702精华在于FPGA与ARM的完美融合,就像太极一样阴阳调和--软中有 ...
- EJB开发第二期---开发具有本地接口的无状态Bean
一.EJB中的bean 1.1 EJB中bean分类 会话bean(session bean) 负责与客户端交互,是编写业务逻辑的地方,在会话bean中可以通过jdbc直接操作数据库,但大多数情况下都 ...
- [Luogu5048] [Ynoi2019模拟赛]Yuno loves sqrt technology III[分块]
题意 长为 \(n\) 的序列,询问区间众数,强制在线. \(n\leq 5\times 10^5\). 分析 考虑分块,暴力统计出整块到整块之间的众数次数. 然后答案还可能出现在两边的两个独立的块中 ...
- Wannafly挑战赛26-F-msc的棋盘[最小割转化dp]
题意 一个大小为 \(n*m\) 的棋盘,知道每一列放了多少棋子,求有多少摆放方案满足要求. \(n,m\leq 50\) . 分析 如果是求是否有方案的话可以考虑网络流,行列连边,列容量为 \(b_ ...
- 使用不同的方法计算TF-IDF值
摘要 这篇文章主要介绍了计算TF-IDF的不同方法实现,主要有三种方法: 用gensim库来计算tfidf值 用sklearn库来计算tfidf值 用python手动实现tfidf的计算 总结 之所以 ...