【Python】Docx解析

1、cd D:\ProgramData\Anaconda3

2、pip install python-docx

3、python代码处理

# -*- coding: utf-8 -*-

import os

import docx

from win32com import client as wc

docs = []

def traverse(f):

    fs = os.listdir(f)

    for f1 in fs:

        tmp_path = os.path.join(f,f1)

        if not os.path.isdir(tmp_path):

            #print('文件: %s'%tmp_path)

            if  os.path.splitext(tmp_path)[-1].lower() == ".doc" or os.path.splitext(tmp_path)[-1].lower() == ".docx":

                #print('文件: %s'%tmp_path)

                docs.append(tmp_path)

        else:

            #print('文件夹：%s'%tmp_path)

            traverse(tmp_path)

def parseDoc(f):

    doc = docx.Document(f)

    parag_num = 0

    for para in doc.paragraphs :

        print("----------------------------------------------------")

        print(para.text)

        print("----------------------------------------------------")

        parag_num += 1

    print ('This document has ', parag_num, ' paragraphs')

def doc2docx(full_path):

    #dirname = os.path.dirname(full_path)

    #filename = os.path.basename(full_path)

    #newpath = full_path.replace('doc','docx')

    newpath = full_path + "x"

    if os.path.exists(newpath):

        return

    # 首先将doc转换成docx

    word = wc.Dispatch("Word.Application")

    # 找到word路径 + 文件名 ，即可打开文件

    doc = word.Documents.Open(full_path)

    # 使用参数16表示将doc转换成docx，保存成docx后才能 读文件

    doc.SaveAs(newpath,16)

    doc.Close()

    word.Quit()

path = 'E:/NLP/Docs/'

traverse(path)

for k,v in enumerate(docs):

    if k < 1:

        print(k,v)

        parseDoc(v)

        #doc2docx(v)

【Python】Docx解析的更多相关文章

用 ElementTree 在 Python 中解析 XML
用 ElementTree 在 Python 中解析 XML 原文: http://eli.thegreenplace.net/2012/03/15/processing-xml-in-python- ...
Python XML解析（转载）
Python XML解析什么是XML? XML 指可扩展标记语言(eXtensible Markup Language). 你可以通过本站学习XML教程 XML 被设计用来传输和存储数据. XML是 ...
python高效解析日志入库
python脚本解析日志文件入库一般有三个重要的步骤:读文件.解析文件.入库.在这三个方面下功夫,可确保我们获得最优的性能(这里不讨论并发) 1 读文件:一次读一行,磁盘IO太多,效率低下:一次性读如 ...
Python网页解析
续上篇文章,网页抓取到手之后就是解析网页了. 在Python中解析网页的库不少,我最开始使用的是BeautifulSoup,貌似这个也是Python中最知名的HTML解析库.它主要的特点就是容错性很好 ...
[Python]ConfigParser解析配置文件
近期发现非常多接口配置都硬编码在souce file中了,于是就看了下python怎么解析配置文件,重构下这一块. 这个应该是早就要作的... 配置文件: [mysqld] user = mysql ...
Python 文本解析器
Python 文本解析器一.课程介绍本课程讲解一个使用 Python 来解析纯文本生成一个 HTML 页面的小程序. 二.相关技术 Python:一种面向对象.解释型计算机程序设计语言,用它可以做 ...
Python XML解析之ElementTree
参考网址: http://www.runoob.com/python/python-xml.html https://docs.python.org/2/library/xml.etree.eleme ...
python大法好——Python XML解析
Python XML解析什么是XML? XML 被设计用来传输和存储数据. XML是一套定义语义标记的规则,这些标记将文档分成许多部件并对这些部件加以标识. 它也是元标记语言,即定义了用于定义其他与 ...
python脚本解析json文件
python脚本解析json文件没写完.但是有效果.初次尝试,写的比较不简洁... 比较烦的地方在于: 1,中文编码: pSpecs.decode('raw_unicode_escape') 2,花 ...
python dpkt解析ssl流
用法:python extract_tls_flow.py -vr white_pcap/11/2018-01-10_13-05-09_2.pcap -o pcap_ssl_flow.txt & ...

随机推荐

给Libgdx的ShapeRenderer开启抗锯齿
http://blog.rpsg-team.com/?p=134 ——————————————————————————————————————————————————————————————————— ...
数据规整化：pandas 求合并数据集（交集并集等）
数据集的合并或连接运算是通过一个或多个键将行链接起来的.这些运算是关系型数据库的核心.pandas的merge函数是对数据应用这些算法的这样切入点. 默认是交集, inner连接列名不同可以分别指定 ...
python爬虫数据-下载图片经典案例
'''Urllib 模块提供了读取web页面数据的接口,我们可以像读取本地文件一样读取www和ftp上的数据.首先,我们定义了一个getHtml()函数: urllib.urlopen()方法用于打开 ...
分享：10 大顶级开源 ERP 系统
10 大顶级开源 ERP 系统企业资源规划(ERP)和客户关系管理(CRM)系统现在已经成为各种组织和企业的必需品,通过它们,可以轻松实现企业的信息数据标准化.系统运行集成化.业务流程合理化.绩效监 ...
e618. Validating a JTextField When Permanently Losing the Focus
This example demonstrates a text field that validates its contents when it receives a permanent focu ...
JAVA组成原理及使用方法编辑环境及实现过程
JAVA组成原理一.由四方面组成:1.Java编程语言2.Java类文件格式3.Java虚拟机4.Java应用程序接口当编辑并运行一个Java程序时,需要同时涉及到这四种方面.二.使用文字编辑软件: ...
多媒体开发之h264中的sps---sps信息提取之帧率
------------------------------author:pkf -----------------------------------------time:2015-8-20 --- ...
EF5+MVC4系列(7) 后台SelectListItem传值给前台显示Select下拉框;后台Action接收浏览器传值的4种方式; 后台Action向前台View视图传递数据的四种方式(ViewDate,TempDate,ViewBag,Model (实际是ViewDate.Model传值))
一:后台使用SelectListItem 传值给前台显示Select下拉框我们先来看数据库的订单表,里面有3条订单,他们的用户id对应了 UserInfo用户表的数据,现在我们要做的是添加一个Ord ...
Dataguard中日志传输服务
之前,原本已经尝试过配置oracle实例的逻辑和物理standby结构,并且做个一些role交换操作,可是由于昨天学习rman的部分命令时没留意,误删掉了primary DB上的所有归档日志,因为原来 ...
6.查找单链表中的倒数第k个结点
普通思路:先将整个链表从头到尾遍历一次,计算出链表的长度size,得到链表的长度之后,就好办了,直接输出第(size-k)个节点就可以了(注意链表为空,k 为0,k为1,k大于链表中节点个数时的情况) ...

【Python】Docx解析

【Python】Docx解析的更多相关文章

随机推荐

热门专题