[转]Python存取XML方法简介
转自:http://www.cnblogs.com/salomon/archive/2012/05/28/2518648.html
目前而言,Python 3.2存取XML有以下四种方法:
1.Expat
2.DOM
3.SAX
4.ElementTree
以以下xml作为讨论依据

- <?xml version="1.0" encoding="utf-8"?>
- <Schools>
- <School Name="XiDian">
- <Class Id="030612">
- <Student Name="salomon">
- <Scores>
- <Math>98</Math>
- <English>85</English>
- <physics>89</physics>
- </Scores>
- </Student>
- <Student Name="Jupiter">
- <Scores>
- <Math>74</Math>
- <English>83</English>
- <physics>69</physics>
- </Scores>
- </Student>
- </Class>
- <Class Id="030611">
- <Student Name="Venus">
- <Scores>
- <Math>98</Math>
- <English>85</English>
- <physics>89</physics>
- </Scores>
- </Student>
- <Student Name="Mars">
- <Scores>
- <Math>74</Math>
- <English>83</English>
- <physics>69</physics>
- </Scores>
- </Student>
- </Class>
- </School>
- </Schools>

Expat
Expat是一个面向流的解析器。您注册的解析器回调(或handler)功能,然后开始搜索它的文档。当解析器识别该文件的指定的位置,它会调用该部分相应的处理程序(如果您已经注册的一个)。该文件被输送到解析器,会被分割成多个片断,并分段装到内存中。因此expat可以解析那些巨大的文件。
SAX
SAX是个循序存取XML的解析器API,一个实现SAX的解析器(也就是“SAX Parser”)以一个串流解析器的型式作用,拥有事件驱动API。由使用者定义回调函数,解析时,若发生事件的话会被调用。事件在任一XML特性遇到时引发,以及遇到他们结尾时再次引发。XML属性也作为传给元素事件资料的一部分。SAX 处理时单方向性的;解析过的资料无法在不重新开始的情况下再次读取。
DOM
DOM解析器在任何处理开始之前,必须把整棵树放在内存,所以DOM解析器的内存使用量完全根据输入资料的大小(相对来说,SAX解析器的内存内容,是只基于XML档案的最大深度(XML树的最大深度)和单一XML项目上XML属性储存的最大资料)。
DOM在python3.2中有两种实现方式:
1.xml.minidom是一个基本的实现。
2.xml.pulldom只在需要时构建被访问的子树。

- '''
- Created on 2012-5-25
- @author: salomon
- '''
- import xml.dom.minidom as minidom
- dom = minidom.parse("E:\\test.xml")
- root = dom.getElementsByTagName("Schools") #The function getElementsByTagName returns NodeList.
- print(root.length)
- for node in root:
- print("Root element is %s。" %node.tagName)# 格式化输出,与C系列语言有很大区别。
- schools = node.getElementsByTagName("School")
- for school in schools:
- print(school.nodeName)
- print(school.tagName)
- print(school.getAttribute("Name"))
- print(school.attributes["Name"].value)
- classes = school.getElementsByTagName("Class")
- print("There are %d classes in school %s" %(classes.length, school.getAttribute("Name")))
- for mclass in classes:
- print(mclass.getAttribute("Id"))
- for student in mclass.getElementsByTagName("Student"):
- print(student.attributes["Name"].value)
- print(student.getElementsByTagName("English")[0].nodeValue) #这个为什么啊?
- print(student.getElementsByTagName("English")[0].childNodes[0].nodeValue)
- student.getElementsByTagName("English")[0].childNodes[0].nodeValue = 75
- f = open('new.xml', 'w', encoding = 'utf-8')
- dom.writexml(f,encoding = 'utf-8')
- f.close()

ElementTree
目前搜到的ElementTree的信息较少,目前不知道其工作机制。有资料显示ElementTree近乎一种轻量级的DOM,但是ElementTree 所有的 Element
节点的工作方式是一致的。它很类似于C#中的XpathNavigator。

- '''
- Created on 2012-5-25
- @author: salomon
- '''
- from xml.etree.ElementTree import ElementTree
- tree = ElementTree()
- tree.parse("E:\\test.xml")
- root = tree.getroot()
- print(root.tag)
- print(root[0].tag)
- print(root[0].attrib)
- schools = root.getchildren()
- for school in schools:
- print(school.get("Name"))
- classes = school.findall("Class")
- for mclass in classes:
- print(mclass.items())
- print(mclass.keys())
- print(mclass.attrib["Id"])
- math = mclass.find("Student").find("Scores").find("Math")
- print(math.text)
- math.set("teacher", "bada")
- tree.write("new.xml")

Compare:
就以上几点来说Expat和SAX解析XML方式相同,就是不知道性能相比怎样。DOM相对于以上两种解析器,消耗内存,而且由于存取耗时,所以处理文件相对来说慢。如果文件太大无法载入内存,DOM这种解析器就不能用了,但是对于,某些种类的XML验证需要存取整份文件,或者某些XML处理仅要求存取整份文件的需求时,DOM是唯一选择。
Note:
需要指出的是存取XML的这几项技术并不是Python独创的,Python也是通过借鉴其他语言或者直接从其他语言引入进来的。例如Expat就是一个用C语言开发的、用来解析XML文档的开发库。而SAX最初是由DavidMegginson采用java语言开发的,DOM可以以一种独立于平台和语言的方式访问和修改一个文档的内容和结构。可以应用于任何编程语言。
做为对比我也想列举一下C#存取XML文档的方式:
1. 基于DOM的XmlDocument
2. 基于流文件的XmlReader 和 XmlWriter(它和SAX流文件实现不同,SAX是事件驱动模型)。
3. Linq to Xml
流文件两种模型:XmlReader/XMLWriter VS SAX
流模型每次迭代XML文档中的一个节点,适合于处理较大的文档,所耗内存空间小。流模型中有两种变体——“推”模型和“拉”模型。
推模型也就是常说的SAX,SAX是一种靠事件驱动的模型,也就是说:它每发现一个节点就用推模型引发一个事件,而我们必须编写这些事件的处理程序,这样的做法非常的不灵活,也很麻烦。
.NET中使用的是基于“拉”模型的实现方案,“拉”模型在遍历文档时会把感兴趣的文档部分从读取器中拉出,不需要引发事件,允许我们以编程的方式访问文档,这大大的提高了灵活性,在性能上“拉”模型可以选择性的处理节点,而SAX每发现一个节点都会通知客户机,从而,使用“拉”模型可以提高Application的整体效率。
Reference:
http://blog.csdn.net/kbkiss2010/article/details/5783834
[转]Python存取XML方法简介的更多相关文章
- Python存取XML方法简介
<?xml version="1.0" encoding="utf-8"?> <Schools> <School Name=&qu ...
- python 存取xml方法
或者也可以参考http://www.cnblogs.com/xiaowuyi/archive/2012/10/17/2727912.html中内容 目前而言,Python 3.2存取XML有以下四种方 ...
- Python和xml简介
python提供越来越多的技术来支持xml,本文旨在面向初学利用Python处理xml的读者,以教程的形式介绍一些基本的xml出来概念.前提是读者必须知道一些xml常用术语. 先决条件 本文所有的例子 ...
- python实现XML解析的三种方法
python实现XML解析的三种方法 三种方法:一是xml.dom.*模块,它是W3C DOM API的实现,若需要处理DOM API则该模块很适合:二是xml.sax.*模块,它是SAX API的实 ...
- Python 魔法方法简介
1.什么是魔法方法? 魔法方法就是可以给你的类增加魔力的特殊方法,如果你的对象实现(重载)了这些方法中的某一个,那么这个方法就会在特殊的情况下被 Python 所调用,你可以定义自己想要的行为,而这一 ...
- Python Python-MySQLdb中的DictCursor使用方法简介
Python-MySQLdb中的DictCursor使用方法简介 by:授客 QQ:1033553122 DictCursor的这个功能是继承于CursorDictRowsMixIn,这个Mi ...
- 列表[‘hello’ , ‘python’ ,’!’ ] 用多种方法拼接,并输出’hello python !’ 以及join()在python中的用法简介
列表[‘hello’ , ‘python’ ,’!’ ] 用多种方法拼接,并输出’hello python !’ 使用字符串链接的四种方法都可以创建 字符串拼接一共有四种方法,也可以应用到列表的拼接中 ...
- Python之xml文档及配置文件处理(ElementTree模块、ConfigParser模块)
本节内容 前言 XML处理模块 ConfigParser/configparser模块 总结 一.前言 我们在<中我们描述了Python数据持久化的大体概念和基本处理方式,通过这些知识点我们已经 ...
- Python实现XML文件解析
1. XML简介 XML(eXtensible Markup Language)指可扩展标记语言,被设计用来传输和存储数据,已经日趋成为当前许多新生技术的核心,在不同的领域都有着不同的应用.它是web ...
随机推荐
- Tornado模块分类和各模块之间的关系
1. Core web framework tornado.web — 包含web框架的大部分主要功能,包含RequestHandler和Application两个重要的类 tornado.https ...
- 搭建lamp环境
虚拟机始终是虚拟机,还是linux用起来舒服得多.话不多说,回到我们的老本行,linux下进行lamp环境搭建吧. 一.安装 1.Apache sudo apt-get install apache2 ...
- 10步教你来优化WordPress速度 为服务器和访客减压
1.Cookie的静态化制作 约有80%至90%的时间,访客要花费大量的时间等你的WordPress加载静态内容.这意味着,有大部分的时间,用户浏览您的网站,他们正在等待加载,如:图像,CSS,JS脚 ...
- 让WordPress的作者在后台只能看到自己的文章
今天需要对WordPress后台进行调整,目的是为了只能让当前用户看见自己所发表的文章,而WordPress默认是登陆用户可以看到所有用户发表的文章. WordPress中的用户角色分的比较详细,作者 ...
- hdu 3461 Code Lock
http://acm.hdu.edu.cn/showproblem.php?pid=3461 并差集和幂取模 这道题主要是求不可操作区间. #include <cstdio> #inclu ...
- Keil C51编译及连接技术
主要介绍Keil C51的预处理方法如宏定义.常用的预处理指令及文件包含指令,C51编译库的选择及代码优化原理,C51与汇编混合编程的方法与实现以及超过64KB空间的地址分页方法的C51实现. 教学目 ...
- PowerShell3.0中,所有的命令
Get-Command * >> cmd.txt CommandType Name ModuleName ----------- ---- ---------- Alias % -> ...
- Java宝典(四)------Java中也存在内存泄露。
--Java中会存在内存泄露吗? --如果你想当然的以为Java里有了垃圾回收机制就不会存在内存泄露,那你就错了. Java里也会存在内存泄露! 我们慢慢来分析. 所谓内存泄露就是指一个不再被程序使用 ...
- Redis 该选择哪种持久化配置
这个标题或许会让你想起<黑客帝国>里经典的台词,你要选择蓝色药丸,还是红色药丸? Redis 是我们重度使用的一个开源软件,对它的持久化配置做一番相对深入的总结,是值得的.目前它有两种主流 ...
- Android 之 Eclipse 导入 Android 源码
很多人都下载过下图中的 Sources for Android SDK,但是很少人知道怎么用 下载完毕后可以再 Android SDK 根目录下看到 sources 文件夹内 有 andr ...