太长了,我决定还是拆开三篇写。
 
(一)段落篇(paragraph)(本篇)

(二)表格篇(table)

(三)样式篇(style)

选你所需即可。下面开始正文。


最近公司的项目,需要在页面上显示word文件的内容。我找了几个前端写法,都没用明白(因为我前端太渣),用起来简单的要么收费,要么加了水印。那怎么办捏?

唉,还是按毛主席说的,自己动手,丰衣足食吧!
感谢徒弟给打下的基础,我不用挨个碰壁,直接就选择了python-docx这个库。当然,它也只能解析docx文件,解析不了doc文件。安装方式直接pip就可以。下面我们就正式开始解析的过程。
 
在word中的一个自然段,就是一个paragraph,用最简单的方式
  1. docx.paragraphs

就可以获得全部的段落。这是一个可迭代的类型,类似于数组如果我们用

  1. p=docx.paragraphs[0]

就可以直接获得文章中的第一段,而接下来

  1. p.text

就是第一段的全部文字内容。如果我们连贯起来写,代码应该是酱婶滴:

  1. for p in docx.paragraphs:
  2. print(p.text)

怎么样,是不是很方便?

不过,这样仅仅是获得了文字内容,而把格式全丢了。我说的格式,是加粗,颜色,居中等等这些排版设计的东西。在paragraph中,这些东西叫做run。一个段落是由许多run组成的,就像这样:
 
而获得run其实也是非常简单的:
  1. p.runs

即可。这同样是个可迭代的类型,可以循环获得每一个run相关的内容,比如alignment(对齐方式),bold(加粗),italic(斜体),text(具体文本内容)等等。

 
可以用dir或help来查看具体的方法使用,内容有点多,我就不挨个介绍了。我只想吐槽一点,我也不知道word中这一堆run是如何来区分的。比如上面的截图,中英文分开不同的run我可以理解,但是前面那些run似乎没有什么道理。也许跟word的中文分词方式有关?
 
但是,如果设置了不同的样式,那么肯定会分成不同的run的。
 
通过查方法不难看出,python-docx这个包,不仅可以读出paragraph的内容,还可以往里面写。可以使用add_paragraph()方法来添加内容。大概这样:
  1. doc.add_paragraph(u'第一段',style=None)
  2. doc.add_paragraph(u'第二段',style='Heading 2')
  3. p = doc.add_paragraph('')
  4. p.add_run('第三段', style=None)
  5. p.add_run('', style="Heading 1 Char")
  6. p.add_run('')
  7. p.add_run('', style="Heading 2 Char")

而对于每一个属性,都可以查看它的类型,这个类型一般在docx中是个枚举类型的常量,放在docx.enum.text这个头文件中。使用方法可以这样:

  1. if p.alignment == WD_PARAGRAPH_ALIGNMENT.CENTER:
  2. # todo

当然,我所做的这堆工作,目的其实不仅仅是为了获得文件内容,还要放在页面上展示。有了上面的属性,做起来就简单多了。

  1. html = "<p"
  2.  
  3. if title in self.paragraph.text and len(self.paragraph.text) < 15:
  4. html += " style=\"text-align: center; font-size: 30px\">"
  5. elif self.paragraph.alignment == WD_PARAGRAPH_ALIGNMENT.CENTER:
  6. html += " style=\"text-align: center; font-size: 15px\">"
  7. elif self.paragraph.alignment == WD_PARAGRAPH_ALIGNMENT.RIGHT:
  8. html += " style=\"text-align: right; font-size: 15px\">"
  9. else:
  10. html += " style=\"font-size: 15px\">"
  11.  
  12. html += "%s</p>" % p

这样其实是用代码活生生地生成了一段html。如果是用jinja模板的框架,可以吧这段html直接通过view传到页面上,然后在页面上使用

  1. {{ paragraph|safe }}

来展示。

注意这里的safe过滤器,这个是必须的,否则会尴尬地发现,html代码不会转义,会原样输出出来。
 
当然,还有更尴尬的。有一个问题我还没有解决,那就是列表,我找了好久都没有找到自动编号的位置,甚至去读了word生成的xml文档——word可以另存为xml格式,也可以在python-docx中通过
  1. p.paragraph_format.element.xml
 
方法获得段落的xml——但是分析了半天,我都没弄清楚段落的自动编号是如何生成的,留下了一个巨大的遗憾。
 
写一篇就介绍到这里吧,内容还是相对简单一些,因为paragraph还是相对比较好取的。下一篇我将介绍一下table的解析。
 

用python解析word文件(一):paragraph的更多相关文章

  1. 用python解析word文件(二):table

    太长了,我决定还是拆开三篇写.   (一)段落篇(paragraph) (二)表格篇(table)(本篇) (三)样式篇(style) 选你所需即可.下面开始正文. 上一篇我们讲了用python-do ...

  2. 用python解析word文件(三):style

    太长了,我决定还是拆开三篇写.   (一)段落篇(paragraph) (二)表格篇(table) (三)样式篇(style)(本篇) 选你所需即可.下面开始正文. 在前两篇中,我们已经解析出了par ...

  3. 用python解析word文件(段落篇(paragraph) 表格篇(table) 样式篇(style))

    首先需要安装相应的支持库: 直接在命令行执行pip install python-docx 示例代码如下: import docxfrom docx import Document #导入库 path ...

  4. 用python读取word文件里的表格信息【华为云技术分享】

    在企查查查询企业信息的时候,得到了一些word文件,里面有些控股企业的数据放在表格里,需要我们将其提取出来. word文件看起来很复杂,不方便进行结构化.实际上,一个word文档中大概有这么几种类型的 ...

  5. C#仪器数据文件解析-Word文件(doc、docx)

    不少仪器数据报告输出为Word格式文件,同Excel文件,Word文件doc和docx的存储格式是不同的,相应的解析Word文件的方式也类似,主要有以下方式: 1.通过MS Word应用程序的DCOM ...

  6. Python处理word文件

    python对word文件进行读写和复制 import win32conimport win32com.clientimport os #读取word文件def readWoldFile(path): ...

  7. Python解析Wav文件并绘制波形的方法

    资源下载 #本文PDF版下载 Python解析Wav文件并绘制波形的方法 #本文代码下载 Wav波形绘图代码 #本文实例音频文件night.wav下载 音频文件下载 (石进-夜的钢琴曲) 前言 在现在 ...

  8. 用Python将word文件转换成html(转)

    用Python将word文件转换成html   序 最近公司一个客户大大购买了一堆医疗健康方面的科普文章,希望能放到我们正在开发的健康档案管理软件上.客户大大说,要智能推送!要掌握节奏!要深度学习!要 ...

  9. Python解析excel文件并存入sqlite数据库

    最近由于工作上的需求 需要使用Python解析excel文件并存入sqlite 就此做个总结 功能:1.数据库设计 建立数据库2.Python解析excel文件3.Python读取文件名并解析4.将解 ...

随机推荐

  1. Angular待办事项应用2

    todo组件 接上一篇,在根目录创建todo组件 命令行输入:ng g c todo 得到 文件结构 修改默认路由为todo: 然后打开浏览器:http://localhost:4200/ ,查看,t ...

  2. 【1】Singleton模式(单例模式)

    一.单例模式的介绍 说到单例模式,大家第一反应应该就是--什么是单例模式?从“单例”字面意思上理解:一个类只有一个实例.所以单例模式也就是保证一个类只有一个实例的一种实现方法罢了(设计模式其实就是帮助 ...

  3. mysql 优化海量数据插入和查询性能

    对于一些数据量较大的系统,数据库面临的问题除了查询效率低下,还有就是数据入库时间长.特别像报表系统,每天花费在数据导入上的时间可能会长达几个小时或十几个小时之久.因此,优化数据库插入性能是很有意义的. ...

  4. PHPCMS V9标签循环嵌套调用数据的方法

    PHPCMS V9的标签制作以灵活见长,可以自由DIY出个性的数据调用,对于制作有风格有创意的网站模板很好用,今天就介绍一个标签循环嵌套方法,可以实现对PC标签循环调用,代码如下: 在此文件里/php ...

  5. 修复IE7浮动元素自动换行的bug

    bug重现以及修复后的表现 2. HTML源码 <!doctype html> <html> <head> <meta charset="utf-8 ...

  6. BZOJ1935: [Shoi2007]Tree 园丁的烦恼(树状数组 二维数点)

    题意 题目链接 Sol 二维数点板子题 首先把询问拆成四个矩形 然后离散化+树状数组统计就可以了 // luogu-judger-enable-o2 #include<bits/stdc++.h ...

  7. R包下载的一些小问题

    install.packages(c("matrixStats", "Hmisc", "splines", "foreach&qu ...

  8. js获取url中参数名也参数值

    要撮利用js获取url中参数名也参数值这个不多见了,但我今天需要这样操作,下面我来给大家介绍一下具体的实例方法.   在已知参数名的情况下,获取参数值,使用正则表达式能很容易做到. js的实现方法如下 ...

  9. 2017年5月22日 HTML基础知识(一)

    一.Html 结构 1.1.HTML基本文档格式—<html> 标记 —<html>文档的头部好和主体内容 </html>  根标记 —<head> 文 ...

  10. css过渡笔记

    3D     http://fangyexu.com/tool-CSS3Inspector.html <!DOCTYPE html> <html lang="en" ...