Python-docx 读取word.docx内容
第一次写博客,也不知道要写点儿什么好,所以就把我在学习Python的过程中遇到的问题记录下来,以便之后查看,本人小白,写的不好,如有错误,还请大家批评指正!
中文编码问题总是让人头疼,想要用Python读取word中的内容,用open()经常报错,上网一搜结果发现了Python有专门读取.docx的模块python_docx(只能读取.docx文件,不能读取.doc文件),用起来很方便。
安装python-docx:
pip install python_docx
(注意:不是pip install docx ! docx也可以安装,但总是报错,缺少exceptions,无法导入)
接下来就可以用Python_docx 来读取word文本了。
代码如下:
import docx
from docx import Document
path = "C:\\Users\\Administrator\\Desktop\\word.docx"
document = Document(path)
for paragraph in document.paragraphs:
print(paragraph.text)
运行即可输出文本。
我尝试用docx读取.doc文本
代码如下:
import os
import docx
for filename in os.listdir(os.getcwd()):
if filename.endswith('.doc'):
print(filename[:-4])
doc = docx.Document(filename[:-4]+".docx")
for para in doc.paragraphs:
print (para.text)
结果报错:docx.opc.exceptions.PackageNotFoundError: Package not found。还是无法识别doc
引用1楼,“改变拓展名并没有改变其编码方式,因此无法读取文本内容,需将doc文件另存为docx文件后再用python-docx读取其内容”
# Document 还有添加标题、分页、段落、图片、章节等方法,说明如下
| add_heading(self, text='', level=1)
| Return a heading paragraph newly added to the end of the document,
| containing *text* and having its paragraph style determined by
| *level*. If *level* is 0, the style is set to `Title`. If *level* is
| 1 (or omitted), `Heading 1` is used. Otherwise the style is set to
| `Heading {level}`. Raises |ValueError| if *level* is outside the
| range 0-9.
|
| add_page_break(self)
| Return a paragraph newly added to the end of the document and
| containing only a page break.
|
| add_paragraph(self, text='', style=None)
| Return a paragraph newly added to the end of the document, populated
| with *text* and having paragraph style *style*. *text* can contain
| tab (``\t``) characters, which are converted to the appropriate XML
| form for a tab. *text* can also include newline (``\n``) or carriage
| return (``\r``) characters, each of which is converted to a line
| break.
|
| add_picture(self, image_path_or_stream, width=None, height=None)
| Return a new picture shape added in its own paragraph at the end of
| the document. The picture contains the image at
| *image_path_or_stream*, scaled based on *width* and *height*. If
| neither width nor height is specified, the picture appears at its
| native size. If only one is specified, it is used to compute
| a scaling factor that is then applied to the unspecified dimension,
| preserving the aspect ratio of the image. The native size of the
| picture is calculated using the dots-per-inch (dpi) value specified
| in the image file, defaulting to 72 dpi if no value is specified, as
| is often the case.
|
| add_section(self, start_type=2)
| Return a |Section| object representing a new section added at the end
| of the document. The optional *start_type* argument must be a member
| of the :ref:`WdSectionStart` enumeration, and defaults to
| ``WD_SECTION.NEW_PAGE`` if not provided.
|
| add_table(self, rows, cols, style=None)
| Add a table having row and column counts of *rows* and *cols*
| respectively and table style of *style*. *style* may be a paragraph
| style object or a paragraph style name. If *style* is |None|, the
| table inherits the default table style of the document.
|
| save(self, path_or_stream)
| Save this document to *path_or_stream*, which can be eit a path to
| a filesystem location (a string) or a file-like object.
docx还有许多其它功能,还正在学习中,详见官方文档:https://python-docx.readthedocs.io/en/latest/user/quickstart.html
Python-docx 读取word.docx内容的更多相关文章
- python读取word表格内容(1)
1.首页介绍下word表格内容,实例如下: 每两个表格后面是一个合并的单元格
- poi读取word的内容
pache POI是Apache软件基金会的开放源码函式库,POI提供API给Java程序对Microsoft Office格式档案读和写的功能. 1.读取word 2003及word 2007需要的 ...
- Python configparser 读取指定节点内容失败
# !/user/bin/python # -*- coding: utf-8 -*- import configparser # 生成一个config文件 config = configparser ...
- java 实现poi方式读取word文件内容
1.下载poi的jar包 下载地址:https://www.apache.org/dyn/closer.lua/poi/release/bin/poi-bin-3.17-20170915.tar.gz ...
- aspose.word 读取word段落内容
注:转载请标明文章原始出处及作者信息 aspose.word 插件下载 链接: http://pan.baidu.com/s/1qXIgOXY 密码: wsj2 使用原因:无需安装office,无兼容 ...
- Python中读取csv文件内容方法
gg 224@126.com 85 男 dd 123@126.com 52 女 fgf 125@126.com 23 女 csv文件内容如上图,首先导入csv包,调用csv中的方法reader()创建 ...
- python读取word中的段落、表、图+++++++++++Doc转换Docx
读取文本.图.表.解压信息 import docx import zipfile import os import shutil '''读取word中的文本''' def gettxt(): file ...
- Python 读取word中表格数据、读取word修改并保存、替换word中词汇、读取word中每段内容,读取一段话中相同样式内容,理解Document中run
from docx import Document path = r'D:\pywork\12' # word信息表所在文件夹 w = Document(path + '/' + 'word信息表.d ...
- 使用poi读取word2007(.docx)中的复杂表格
使用poi读取word2007(.docx)中的复杂表格 最近工作需要做一个读取word(.docx)中的表格,并以html形式输出.经过上网查询,使用了poi. 对于2007及之后的word文档,需 ...
随机推荐
- python-day7-静态方法、类方法、属性方法、特殊成员方法、反射、异常处理、socket
@特殊方法.异常处理.反射.socket @类 属性 实例变量 类变量 私有属性__var 方法 构造方法, 析构函数(python自带,不写也有,写了相当与重构) 私有方法 继承 继承 组合 @7. ...
- 13. nginx,lvs之一
摘要: 1.详细描述常见nginx常用模块和模块的使用示例 2.简述Linux集群类型.系统扩展方式及调度方法 3.简述lvs四种集群有点及使用场景 4.描述LVS-NAT.LVS-DR的工作原理并实 ...
- shell脚本中获取当前所在目录地址
shell脚本中获取当前所在目录如下 #!/bin/bash work_path=$() cd ${work_path} work_path=$(pwd) cd ${work_path}/src
- Django return
return HttpResponse("OK") 返回一个字符串 return redirect("/index/") 返回URL return render ...
- UICollectionView didSelectItemAtIndexPath实现方法
didSelectItemAtIndexPath是通过UIResponder的四个touch方法实现的(touchBegan, touchMove, touchEnd, touchCancel),因此 ...
- (转)flutter 新状态管理方案 Provide (一)-使用
flutter 新状态管理方案 Provide (一)-使用 版权声明:本文为博主原创文章,基于CC4.0协议,首发于https://kikt.top ,同步发于csdn,转载必须注明出处! ...
- python视频学习笔记2(if)
一.if语句1.比较运算符,if语句语法 # 1. 输入用户年龄# 2. 判断是否满 18 岁 (**>=**)# 3. 如果满 18 岁,允许进网吧嗨皮# 4. 如果未满 18 岁,提示回家写 ...
- ArcGIS案例教程-通过点坐标生成圆
ArcGIS案例教程-通过点坐标生成圆 联系方式:谢老师,135-4855-4328,xiexiaokui#qq.com 功能:以点坐标为中心,通过指定半径,生成圆 成果形式:绿色工具,免安装,不限版 ...
- python基础之语句字符串
python的种类: jpython java写的python ironpython c#写的python cpython ...
- http缓存策略-nginx只缓存js和css不缓存html
使用缓存,是提升web性能最重要的方式之一. 在开发单页面应用的时候,大量的单静态资源引用都是依赖于html这个文件的.例如: <!doctype html> <html lang= ...