Python处理XML

　　在Python(以及其他编程语言)内有两种常见的方法处理XML:SAX(Simple API for XML)和DOM(Document Object Model,文档对象模型)。SAX语法分析器读取XML文件并且告知它发现的内容(文本,标签和特性)。由于它一次只村文档的一小部分,所以SAX简单,快速并能有效利用内存。DOM走的则是另外一条路:它构造一个表示整个文档的数据结构(文档树)。这样会慢些并且需要更多内存，但如果希望操作整个文档结构的话则很有用。

　　Python内使用DOM的信息 http://docs.python.org/2/library/xml.dom.html 。除了标准的DOM处理外,标准库还包括另外两个模块:

cml.dom.minidom(简化的DOM)和xml.dom.pulldom(SAX和DOM的结合体,减少了内存需求)。

　　pyRXP(https://bitbucket.org/rptlab/pyrxp) 是个快速且简单的XML语法分析器(它并不使用DOM,但是会从XML文档中建立完整的文档树)。ElementTree (http://effbot.org/zone/elementtree.htm)则更加灵活易用。

　　更多处理XML的Python工具请参看https://wiki.python.org/moin/PythonXml

　　我们使用Python内置的SAX进行解析.

　　SAX不用将整个文档加载到内存，基于事件驱动的API(Observer模式)，用户只需要注册自己感兴趣的事件即可。在使用SAX进行解析时,有很多事件类型可用,但是这里只用到3个:元素的开始(开始标签的匹配项),元素的结束(关闭标签的匹配项)以及纯文本(字符)。要解析XML文件,可使用xml.sax模块的parse函数。这个函数负责读取文件并且生成时间——由于它要生成这3类事件,所以要调用一些事件处理程序。这些处理程序会作为内容处理程序(content handler)对象的方法来实现。需要继承 xml.sax.handler 中的 ContentHandler 类,因外它实现了所有需要的事件处理程序(只不过是没有任何效果的伪操作),可以在需要的时候覆盖这些函数。

　　下面是一个xml文件 website.xml

 <?xml version="1.0" encoding="utf-8"?>

 <website>

   <page name="index" title="Home Page">

     <h1>Welcome to My Home Page</h1>

     <p>

       Hi, there. My name is Mr. Gumby, and this is my home page. Here

       are some of my interests:

     </p>

     <ul>

       <li>

         <a href="interests/shouting.html">Shouting</a>

       </li>

       <li>

         <a href="interests/sleeping.html">Sleeping</a>

       </li>

       <li>

         <a href="interests/eating.html">Eating</a>

       </li>

     </ul>

   </page>

   <directory name="interests">

     <page name="shouting" title="Shouting">

       <h1>Mr. Gumby's Shouting Page</h1>

       <p>...</p>

     </page>

     <page name="sleeping" title="Sleeping">

       <h1>Mr. Gumby's Sleeping Page</h1>

       <p>...</p>

     </page>

     <page name="eating" title="Eating">

       <h1>Mr. Gumby's Eating Page</h1>

       <p>...</p>

     </page>

   </directory>

 </website>

我们需要处理上述的xml文件,根据xml的内容可知,website.xml是一个网站系统的内容文件,我们根据其意思使用Python自动生成一个简易的网站系统。

　　我们先用一个简单的例子演示如何使用Python SAX方式解析XML

 import os

 from xml.sax.handler import ContentHandler

 from xml.sax import parse

 class TestHandler(ContentHandler):

     def startElement(self, name, attrs):

         print name, attrs.keys()

 parse('website.xml', TestHandler())

　　输出结果:

 website []

 page [u'name', u'title']

 h1 []

 p []

 ul []

 li []

 a [u'href']

 li []

 a [u'href']

 li []

 a [u'href']

 directory [u'name']

 page [u'name', u'title']

 h1 []

 p []

 page [u'name', u'title']

 h1 []

 p []

 page [u'name', u'title']

 h1 []

 p []

　　使用SAX非常简单，如果我们对某个标签感兴趣，我们使用 if 语句进行判断然后进行相应的处理即可。

我们现在编写一个完整的Python脚本对上面的XML进行处理:

　　websit.xml

 from xml.sax.handler import ContentHandler

 from xml.sax import parse

 import os

 class Dispatcher(object):

     def dispatch(self, prefix, name, attrs=None):

         mname = prefix + name.capitalize()

         dname = 'default' + prefix.capitalize()

         method = getattr(self, mname, None)

         if callable(method):

             args = ()

         else:

             method = getattr(self, dname, None)

             args = name,

         if prefix == 'start':

             args += attrs,

         if callable(method):

             method(*args)

     def startElement(self, name, attrs):

         self.dispatch('start', name, attrs)

     def endElement(self, name):

         self.dispatch('end', name)

 class WebsiteConstructor(Dispatcher, ContentHandler):

     passthrough = False

     def __init__(self, directory):

         self.directory = [directory]

         self.ensureDirectory()

     def ensureDirectory(self):

         path = os.path.join(*self.directory)

         if not os.path.isdir(path):

             os.makedirs(path)

     def characters(self, content):

         if self.passthrough:

             self.out.write(content)

     def defaultStart(self, name, attrs):

         if self.passthrough:

             self.out.write('<' + name)

             for key, val in attrs.items():

                 self.out.write(' %s="%s"' % (key, val))

             self.out.write('>')

     def defaultEnd(self, name):

         if self.passthrough:

             self.out.write('</%s>' % name)

     def startDirectory(self, attrs):

         self.directory.append(attrs['name'])

         self.ensureDirectory()

     def endDirectory(self):

         self.directory.pop()

     def startPage(self, attrs):

         filename = os.path.join(*self.directory + [attrs['name'] + '.html'])

         self.out = open(filename, 'w')

         self.writeHeader(attrs['title'])

         self.passthrough = True

     def endPage(self):

         self.passthrough = False

         self.writeFooter()

         self.out.close()

     def writeHeader(self, title):

         self.out.write('<html>\n <head>\n <title>')

         self.out.write(title)

         self.out.write('</title>\n </head>\n <body>\n')

     def writeFooter(self):

         self.out.write('\n </body>\n</html>\n')

 XML = os.path.join('website.xml')

 parse(XML, WebsiteConstructor('public_html'))

　　使用

 python website.py

　　运行后我们会得到一堆HTML文件,文件内容即是xml文件定义的内容

Python处理XML的更多相关文章

python 生成 xml文件属性的顺序问题
需求很奇葩. 文档示例 <ITEM key="username" eng="User Name" chn="用户名" val=&quo ...
python读取xml文件
关于python读取xml文章很多,但大多文章都是贴一个xml文件,然后再贴个处理文件的代码.这样并不利于初学者的学习,希望这篇文章可以更通俗易懂的教如何使用python 来读取xml 文件. 什么是 ...
python 解析XML python模块xml.dom解析xml实例代码
分享下python中使用模块xml.dom解析xml文件的实例代码,学习下python解析xml文件的方法. 原文转自:http://www.jbxue.com/article/16587.html ...
python解析xml模块封装代码
在python中解析xml文件的模块用法,以及对模块封装的方法.原文转自:http://www.jbxue.com/article/16586.html 有如下的xml文件:<?xml vers ...
python解析xml之lxml
虽然python解析xml的库很多,但是,由于lxml在底层是用C语言实现的,所以lxml在速度上有明显优势.除了速度上的优势,lxml在使用方面,易用性也非常好.这里将以下面的xml数据为例,介绍l ...
python处理xml的常用包（lib.xml、ElementTree、lxml）
python处理xml的三种常见机制 dom(随机访问机制) sax(Simple APIs for XML,事件驱动机制) etree python处理xml的三种包标准库中的xml Fredri ...
python解析xml
python解析xml import xml.dom.minidom as minidom dom = minidom.parse("aa.xml") root = dom.get ...
python写xml文件
为了便于后续的读取处理,这里就将信息保存在xml文件中,想到得到的文件如下: 1 <?xml version="1.0" encoding="utf-8" ...
Python之xml文档及配置文件处理（ElementTree模块、ConfigParser模块）
本节内容前言 XML处理模块 ConfigParser/configparser模块总结一.前言我们在<中我们描述了Python数据持久化的大体概念和基本处理方式,通过这些知识点我们已经 ...
python+selenium自动化软件测试(第12章)：Python读写XML文档
XML 即可扩展标记语言,它可以用来标记数据.定义数据类型,是一种允许用户对自己的标记语言进行定义的源语言.xml 有如下特征: 首先,它是有标签对组成:<aa></aa> ...

随机推荐

C# 如何设置 richTextBoxr的边距
附件 http://files.cnblogs.com/xe2011/richTextBox_EM_SETRECT.rar using System.Runtime.InteropServices; ...
在内核外编写的linux驱动程序MAKEFILE
一般都是这么写: ifneq ($(KERNELRELEASE),) obj-m := else KERNELDIR ?= /lib/modules/$(shell uname -r)/build ...
【MongoDB安装和基础学习系列】
转:http://www.cnblogs.com/lipan/archive/2011/03/08/1977691.html 系列目录 MongoDB学习笔记(一) MongoDB介绍及安装 ...
mybatis01
mybatis是一个java持久层框架,java中操作关系型数据库用的是jdbc,mybatis是对jdbc的一个封装. jdk1..0_72 eclipse:eclipse-3.7-indigo ...
使用QEMU调试Linux内核代码
http://blog.chinaunix.net/uid-20729583-id-1884617.html http://www.linuxidc.com/Linux/2014-08/105510. ...
ubuntu14.04使用root用户登录桌面分类：学习笔记 linux ubuntu 2015-07-05 10:30 199人阅读评论(0) 收藏
ubuntu安装好之后,默认是不能用root用户登录桌面的,只能使用普通用户或者访客登录.怎样开启root用户登录桌面呢? 先用普通用户登录,然后切换到root用户,然后执行如下命令: vi /usr ...
json <--->List集合,实体类之间的相互转换
json所依赖的jar包http://files.cnblogs.com/files/wenjie123/json_jar%E5%8C%85.rar package com.hp.svse; impo ...
关于js当中一些糟糕的特性
首先,不可否认,js是一门具有许多优秀特性的弱类型语言,但是这门语言在设计之初就投入了工程实践,没有经历严格的实验室测试,以致力于它是如此的粗糙,在相当长的一段时间很不受开发者待见,被视为一门玩具性的 ...
Centos6.5 install Python2.7 & django & mysql & apache
#! /bin/bash#su root#get python2.7wget https://www.python.org/ftp/python/2.7.9/Python-2.7.9.tgz #ins ...
（六）Struts2 国际化
所有的学习我们必须先搭建好Struts2的环境(1.导入对应的jar包,2.web.xml,3.struts.xml) 第一节:国际化简介国际化(Internationlization),通俗地讲, ...

Python处理XML

Python处理XML的更多相关文章

随机推荐

热门专题