Python 提取 Word 文档中的文本和图片

将内容从 Word 文档中提取出来可以方便我们对其进行其他操作，如将内容储存在数据库中、将内容导入到其他程序中、用于 AI 训练以及制作其他文档等。第三方库 Spire.Doc for Python 提供了一个简单的方法直接提取 Word 文档中的内容，包括文本和图片，而不需要大量的复制粘贴操作，也不需要复杂的代码。本文将介绍如何使用简单的代码实现从 Word 文档中提取文本和图片内容并保存。

从 Word 文档中提取文本内容并写入 TXT 文件
从 Word 文档中提取图片并保存

Python库安装：在操作之前，需要先将Spire.Doc for Python 引入到项目中。可以下载后安装，或直接通过 pip 安装。

pip install Spire.Doc

Python 提取Word文档中的文本内容

Spire.Doc for Python中的 Document.GetText() 方法可以获取Word文档中的所有文本并返回字符串，我们可以将返回的字符串写入到文本文件中进行保存。

代码示例：

from turtle import st

from spire.doc import *

from spire.doc.common import *

def WriteAllText(fname:str,text:List[str]):

        fp = open(fname,"w")

        for s in text:

            fp.write(s)

        fp.close()

inputFile = "示例.docx"

outputFile =  "获取的文本.txt"

#创建Document的对象

document = Document()

#载入Word文档

document.LoadFromFile(inputFile)

#获取文档中的文本

text = document.GetText()

#将文本写入文本文件

WriteAllText(outputFile, text)

document.Close()

提取结果

Python 提取Word文档中的图片

提取图片的操作相对复杂一些，需要判断文档元素子对象是否为图片或复合对象，如果是图片则保存，如果是复合对象则继续判断其中的子对象是否为图片。

代码示例：

import queue

from spire.doc import *

from spire.doc.common import *

import os

outputPath = "Images/"

inputFile = "示例.docx"

if not os.path.exists(outputPath):

    os.makedirs(outputPath)

#创建Document的对象

document = Document()

#载入Word文档

document.LoadFromFile(inputFile)

#创建一个队列并将文档元素放入其中

nodes = queue.Queue()

nodes.put(document)

#创建一个列表

images = []

#循环遍历文档元素

while nodes.qsize() > 0:

    node = nodes.get()

    for i in range(node.ChildObjects.Count):

        #获取文档元素的子对象

        child = node.ChildObjects.get_Item(i)

        #判断子对象是否为图片

        if child.DocumentObjectType == DocumentObjectType.Picture:

            picture = child if isinstance(child, DocPicture) else None

            dataBytes = picture.ImageBytes

            #添加到列表中

            images.append(dataBytes)

        #判断子对象是否为复合对象

        elif isinstance(child, ICompositeObject):

            #添加到队列中

            nodes.put(child if isinstance(child, ICompositeObject) else None)

#保存图片

for i, item in enumerate(images):

    fileName = "Image-{}.png".format(i)

    with open(outputPath+fileName,'wb') as imageFile:

        imageFile.write(item)

document.Close()

提取结果：

以上是关于如何使用Python 从Word文档中提取文本和图片的介绍。该Python Word库还支持非常多的文档操作，具体可以查看 Spire.Doc for Python中文教程。

Python 提取 Word 文档中的文本和图片的更多相关文章

C# 提取Word文档中的图片
C# 提取Word文档中的图片图片和文字是word文档中两种最常见的对象,在微软word中,如果我们想要提取出一个文档内的图片,只需要右击图片选择另存为然后命名保存就可以了,今天这篇文章主要是实现使 ...
使用Java POI来选择提取Word文档中的表格信息
通过使用Java POI来提取Word(1992)文档中的表格信息,其中POI支持不同的ms文档类型,在具体操作中需要注意.本文主要是通过POI来提取微软2003文档中的表格信息,具体code如下(事 ...
2018-10-04 [日常]用Python读取word文档中的表格并比较
最近想对某些word文档(docx)的表格内容作比较, 于是找了一下相关工具. 参考Automate the Boring Stuff with Python中的word部分, 试用了python-d ...
第一节：python提取PDF文档中的图片
由于项目需要将PDF文档当中的图片转换成图片,所以参考了这篇文章https://blog.csdn.net/qq_15969343/article/details/81673302后项目得以解决. 1 ...
Aspose.Words提取word文档中的图片文件
/// <summary> /// 提取word中的图片 /// </summary> /// <param name="filePath">w ...
Python读取word文档（python-docx包）
最近想统计word文档中的一些信息,人工统计的话...三天三夜吧 python 不愧是万能语言,发现有一个包叫做 docx,非常好用,具体查看官方文档:https://python-docx.read ...
C# Word文档中插入、提取图片，文字替换图片
Download Files:ImageOperationsInWord.zip 简介在这篇文章中我们可以学到在C#程序中使用一个Word文档对图像的各种操作.图像会比阅读文字更有吸引力,而且图像是 ...
Java 在 Word 文档中使用新文本替换指定文本
创作一份文案,经常会高频率地使用某些词汇,如地名.人名.人物职位等,若表述有误,就需要整体撤换.文本将介绍如何使用Spire.Doc for Java,在Java程序中对Word文档中的指定文本进行替 ...
利用Python-docx 读写 Word 文档中的正文、表格、段落、字体等
前言: 前两篇博客介绍了 Python 的 docx 模块对 Word 文档的写操作,这篇博客将介绍如何用 docx 模块读取已有 Word 文档中的信息. 本篇博客主要内容有: 1.获取文档的章节信 ...
C# 在Word文档中生成条形码
C# 在Word文档中生成条形码简介条形码是由多个不同的空白和黑条按照一定的顺序组成,用于表示各种信息如产品名称.制造商.类别.价格等.目前,条形码在我们的日常生活中有着很广泛的应用,不管是在图书 ...

随机推荐

通过Scrum实现最大生产力的五种方法
在数字化.信息化.智能化蓬勃发展的今天,敏捷开发和Scrum已成为重塑项目管理的重要方式. 敏捷是一种体现不同方法的思维方式,包括了Scrum,看板,极限编程(XP).精益开发等众多框架. Scrum ...
API接口的设计思路
API接口设计是软件开发中非常重要的一环,良好的设计规范能够提高开发效率.减少问题和错误,并增强系统的可维护性和可扩展性.本文从程序员的视角,讨论一些常见的API接口设计规范. 一.遵循RESTf ...
windows 网络模拟工具分享
[下载地址] Releases · jagt/clumsy · GitHub [介绍] 无需安装无需篡改和代理系统级限制,不针对单个程序,但可以针对单个IP 离线也可以限制,随停随用界面简单 [ ...
Redis系列之——持久化
一持久化的作用 1.1 什么是持久化 redis的所有数据保存在内存中,对数据的更新将异步的保存到硬盘上 1.2 持久化的实现方式快照:某时某刻数据的一个完成备份, -mysql的Dump -re ...
Background Removal obs
Background Removal / Portrait Segmentation / Virtual Green-screen v0.5.16 Go to download Author roys ...
options has an unknown property ‘contentBase‘
options has an unknown property 'contentBase' 踩坑新版webpack-dev-serve 新版的contentBase取消了替代属性是static
Java服务总在半夜挂，背后的真相竟然是...
写在前面最近有用户反馈测试环境Java服务总在凌晨00:00左右挂掉,用户反馈Java服务没有定时任务,也没有流量突增的情况,Jvm配置也合理,莫名其妙就挂了问题排查问题复现为了复现该问题,写 ...
Godot引擎的一些踩坑记录(不断更新中)
版本号 Godot 3.1.2 文件夹名称使用小写.编译\导出时有的tscn文件的引用路径, 有可能会变成小写路径(怀疑是bug),导致启动失败. ttc字体(文泉驿微米黑)导出时需要手动设置包含*. ...
9.12 多校联测 Day2 总结
还是有不少不该挂的分. 开考看了 T1 约 40min 仍然毫无思路,试着推 mod=2 无果.吸取昨天经验教训,赶紧扔掉看 T2. 在 9:00 想到了 dp 的可能性,苦于设计不出状态.9:20 ...
字符串小记 I：基本结构与简单匹配（更新中）
0.一些定义在开始之前,我们先给出一些关于字符串的定义: 记 \(|S|\) 表示字符串 \(S\) 的长度,\(S_i\) 表示该字符串中第 \(i\) 位的字符,\(S_{l,r}\) 表示该字 ...

Python 提取 Word 文档中的文本和图片

Python 提取Word文档中的文本内容

Python 提取Word文档中的图片

Python 提取 Word 文档中的文本和图片的更多相关文章

随机推荐

热门专题