pdf及word文档的读取 pyPDF2,docx

#!python3

#-*- coding:utf8 -*-

#PyPDF2可能会打不开某些pdf文档，也不能提取图片，图表或者其他媒介从PDF文件中。但是它能提取文本从PDF中，转化为字符。

import PyPDF2

#以二进制方式读模式打开一个pdf文件

pdfFileObj=open('e:\work\data_service.pdf','rb')

#读取pdf文档

pdfReader=PyPDF2.PdfFileReader(pdfFileObj)

#返回的是pdf文档的总页数

print(pdfReader.numPages)

#获取单页的内容，页码数从0开始

pageObj=pdfReader.getPage(0)

#返回单页的文本内容

pageObj.extractText()

#对于有加密的pdf文档其读对象有属性 isEncrypted

print(pdfReader.isEncrypted) #若有加密，则属性值为True。直接获取某页的文本内容会报错。

#通过方法decrypt()传递解密密码后可正常获取文本内容,密码以字符串形式传入。

#pdfReader.decrypt('rosebud')

#写pdf文档

#创建pdf写对象

pdfWriter=PyPDF2.PdfFileWriter()

for pageNum in range(pdfReader.numPages):

pageObj=pdfReader.getPage(pageNum)

#向pdf写对象里添加内容（内容为pdf某个页面对象）

pdfWriter.addPage(pageObj)

#pdfWriter.addPage(pdfReader.getPage(3))

#创建新的pdf文件

pdfOutputFile=open('combinedminutes.pdf','wb')

#将pdf写对象中的内容加进新建的pdf文件中

#pdfWriter.write(pdfOutputFile) 此语句写入失败

#写完后关闭pdf文件

pdfOutputFile.close()

#word文档读写

import docx

doc=docx.Document('C:\\Users\\li.wu\\Desktop\\有趣的植物.docx')

#文档的总段落数

print(len(doc.paragraphs))

#可以一段一段的返回文本内容

print(doc.paragraphs[0].text)

#'第一章\xa0\xa0了解MySQL'

#每个段落都有一个runs属性，runs的长度表示这个段落的格式的变化次数。

len(doc.paragraphs[1].runs)

#10

#每个runs元素也都有一个text属性

print(doc.paragraphs[1].runs[0].text)

#'\xa0\xa0\xa0'

#如果只关心文档中的内容，不在意格式的话，可以写一个函数直接获取整段文本：

def getText(filename):

doc=docx.Document(filename)

fullText=[]

for para in doc.paragraphs:

fullText.append(para.text)

return '\n'.join(fullText)

a=getText('e:\work\mysqll.docx')

print(a.encode('utf-8'))

'''

默认的字体的类型有：

'Normal' 'Heading5' 'ListBullet' 'ListParagraph' 'BodyText' 'Heading6' 'ListBullet2' 'MacroText' 'BodyText2' 'Heading7'

'ListBullet3' 'NoSpacing' 'BodyText3' 'Heading8' 'ListContinue' 'Quote' 'Caption' 'Heading9' 'ListContinue2' 'Subtitle'

'Heading1' 'IntenseQuote' 'ListContinue3' 'TOCHeading' 'Heading2' 'List' 'ListNumber' 'Title' 'Heading3' 'List2'

'ListNumber2' 'Heading4' 'List3' 'ListNumber3'

'''

#有3种类型的风格，段落风格可以应用于Paragraph对象，个性风格可以应用于Run对象。关联风格可以应用于前两种风格。

#设置风格属性时，风格类型名中间不要使用空格，例Subtle Emphasis ,入参应写成'SubtleEmphasis'

#Paragraph和Run对象都有属相style,通过设置style的值可以设置段落和文字的格式。

#当使用关联风格属性应用于Run对象时，需要在风格名后加上’Char'。例如要将Quote类的关联风格应用于Paragraph对象时，使用paragraphObj.style='Quote',

#但是应用于Run对象时，应该使用runObj.style='QuoteChar'.

#目前的Python-Docx（0.7.4）只支持默认的word风格。

#run对象的text属性，每个text属相有三种值 True(打开) False(关闭) None(默认值)

#run对象的text属性：

'''

bold : The text appears in bold.

italic : The text appears in italic.

underline : The text is underlined.

strike : The text appears with strikethrough.

double_strike : The text appears with double strikethrough.

all_caps : The text appears in capital letters.

small_caps : The text appears in capital letters, with lowercase letters two points smaller.

shadow : The text appears with a shadow.

outline : The text appears outlined rather than solid.

rtl : The text is written right-to-left.

imprint : The text appears pressed into the page.

emboss : The text appears raised off the page in relief.

'''

doc.paragraphs[1].runs[0].underline=True

doc.save('restyled.docx')

#创建新的word文档

doc=docx.Document()

#添加段落

doc.add_paragraph('Hello world!')

a=doc.add_paragraph('this is a second paragraph')

#在段落后添加语句

a.add_run('This text is being addded to the second paragraph')

#添加段落时可设置段落格式

doc.add_paragraph('Hello world !','Title')

#add_heading()方法是以某一种标题格式添加一个段落数据范围从0~4，0是主标题，4是第4级副标题。

doc.add_heading('Header 0',0) #格式为标题1

doc.add_heading('Header 1',1) #格式为标题2

#通过在第一个末尾设置一个break，转到下一页

doc.paragraphs[2].runs[0].add_break(docx.enum.text.WD_BREAK.PAGE)

#Enumeration – WD_BREAK_TYPE

'''

WD_BREAK.LINE

WD_BREAK.LINE_CLEAR_LEFT

WD_BREAK.LINE_CLEAR_RIGHT

WD_BREAK.TEXT_WRAPPING (e.g. LINE_CLEAR_ALL)

WD_BREAK.PAGE

WD_BREAK.COLUMN

WD_BREAK.SECTION_NEXT_PAGE

WD_BREAK.SECTION_CONTINUOUS

WD_BREAK.SECTION_EVEN_PAGE

WD_BREAK.SECTION_ODD_PAGE

'''

doc.add_paragraph('This is on the second page!')

#添加图片到文档末尾(宽设置为4英寸，高设置为1厘米)高与宽可以不设置，则为常规大小。

doc.add_picture('e:\work\code.jpg',width=docx.shared.Inches(4),height=docx.shared.Cm(1))

doc.save('e:\work\helloworld.docx')

pdf及word文档的读取 pyPDF2,docx的更多相关文章

Python处理PDF和Word文档常用的方法
Python处理PDF和Word文档的模块是PyPDF2,使用之前需要先导入. 打开一个PDF文档的操作顺序是:用open()函数打开文件并用一个变量来接收,然后把变量给传递给PdfFileReade ...
判断pdf、word文档、图片等文件类型（格式）、大小的简便方法
判断pdf.word文档.图片等文件类型(格式).大小的简便方法很久没发文了,今天有时间就写一下吧. 关于上传文件,通常我们都需要对其进行判断,限制上传的类型,如果是上传图片,我们甚至会把图片转化成 ...
Python处理PDF和Word文档常用的方法（二）
Python处理word时,需要安装和导入python-docx模块. 安装命令:pip install python-docx 导入命令:import docx 编码编写顺序:用docx.Docum ...
关于WORD文档的读取乱码问题
一直以来都是用File类操作txt文档,今天想尝试能不能打开word文档,无奈,尝试了UTF8,Unicode,Default....等编码方式,打开文件都是乱码,电脑甚至发出警报声. 以下只取一种编 ...
SpringBoot整合openoffice实现word文档的读取和导入及报错处理
先安装openoffice4 Linux系统安装参考:https://www.cnblogs.com/pxblog/p/11622969.html Windows系统安装参考:https://www. ...
poi导出word文档，doc和docx
maven <dependency> <gro ...
PDF转word文档
本文未对扫描版的PDF实验,但是可编辑PDF版本可以转换为word而且转换后的word是可编辑的. 1.从http://xiazai.zol.com.cn/detail/33/326858.shtml ...
word文档操作-doc转docx、合并多个docx
前言: 临时来了一条新的需求:多个doc文档进行合并. 在网上苦苦搜罗了很久才找到可用的文件(原文出处到不到了所以暂时不能加链接地址了),现在记录下留给有需要的人. 一:doc转docx 所需jar ...
word文档转pdf，支持.doc和.docx，另附抽取pdf指定页数的方法
公司有个需求,需要将word转成pdf并且抽取首页用以展示,word文档有需要兼容.doc和.docx两种文档格式.其中.docx通过poi直接就可以将word转成pdf,.doc则无法这样实现,上网 ...

随机推荐

（转）c# String与StringBuilder
阅读目录 1.什么时候用String?什么时候用StringBuilder? 2.String与StringBuilder的区别总结 1.什么时候用String?什么时候用StringBuild ...
新C# 操作Excel属性
C# 操作Excel属性数字(Range.NumberFormatlocal 属性) 常规:Range.NumberFormatlocal = "G/通用格式" 数值:Range ...
Spring Boot 针对 Java 开发人员的安装指南
Spring Boot 可以使用经典的开发工具或者使用安装的命令行工具.不管使用何种方式,你都需要确定你的 Java 版本为 Java SDK v1.8 或者更高的版本.在你开始安装之前,你需要确定你 ...
jq 倒计时
引入jq 注在IE和safari 如果时间出现NAN 将时间格式改为YYYY/MM/DD HH:MM:SS 例:var d2 = new Date("2019/02/18 15:59&qu ...
php 商场收银收费系统,使用的策略模式
<?php//策略模式就是你有很多的方法,选择一种适合自己的,// 单例模式就是只有一个实例对象,不需要每个文件都要加载,比如连接数据库,// 工厂模式就是 //策略模式优惠系统.工资计算系统 ...
AVL平衡二叉树的各种问题（Balanced Binary Tree）
AVL树或者是一棵空树,或者是具有以下性质的非空二叉搜索树: 1. 任一结点的左.右子树均为AVL树: 2.根结点左.右子树高度差的绝对值不超过1. 1.声明 #include<iostream ...
【洛谷p1403 】【AHOI2005】约数研究
(有种失踪人口回归的感觉) 约束研究[传送门] (不过好像没有人注意到我这个蒟蒻) 好的不管它啦最近学数论比较多,所以可能会有好多好多的数论题???(不存在的) 行吧上算法标签: 数论数论 ...
Selenium-WebDriver驱动对照表
Chrome 对于chrome浏览器,有时候会有闪退的情况,也许是版本冲突的问题,我们要对照着这个表来对照查看是不是webdriver和chrome版本不对 chromedriver版本支持的Chr ...
bzoj3261: 最大异或和可持久化trie
题意:给定一个非负整数序列{a},初始长度为N. 有M个操作,有以下两种操作类型: 1.Ax:添加操作,表示在序列末尾添加一个数x,序列的长度N+1. 2.Qlrx:询问操作,你需要找到一个位置p,满 ...
mysql索引注意事项
mysql使用索引的注意事项 1.索引不会包含有NULL值的列只要列中包含有NULL值都将不会被包含在索引中,复合索引中只要有一列含有NULL值,那么这一列对于此复合索引就是无效的.所以我们在数据库 ...

pdf及word文档的读取 pyPDF2,docx

pdf及word文档的读取 pyPDF2,docx的更多相关文章

随机推荐

热门专题