xml解析模块

XML

XML是可扩展标记语言的缩写，是实现不同语言或程序之间进行数据交换的协议,主要可以对key添加属性. 页面做展示(字符类型的一个xml格式数据)\做配置文件(内部xml格式的数据).,每一个节点都是一个element对象
格式：

<data>

    <country name="Liechtenstein">

        <rank updated="yes">2</rank>

        <year>2023</year>

        <gdppc>141100</gdppc>

        <neighbor direction="E" name="Austria" />

        <neighbor direction="W" name="Switzerland" />

    </country>

    <country name="Singapore">

        <rank updated="yes">5</rank>

        <year>2026</year>

        <gdppc>59900</gdppc>

        <neighbor direction="N" name="Malaysia" />

    </country>

    <country name="Panama">

        <rank updated="yes">69</rank>

        <year>2026</year>

        <gdppc>13600</gdppc>

        <neighbor direction="W" name="Costa Rica" />

        <neighbor direction="E" name="Colombia" />

    </country>

</data>

python解析xml

python有三种方法解析XML，SAX，DOM，以及ElementTree:

SAX (simple API for XML ) python 标准库包含SAX解析器，SAX用事件驱动模型，通过在解析XML的过程中触发一个个的事件并调用用户定义的回调函数来处理XML文件。
DOM(Document Object Model) 将XML数据在内存中解析成一个树，通过对树的操作来操作XML。
ElementTree(元素树)
ElementTree就像一个轻量级的DOM，具有方便友好的API。代码可用性好，速度快，消耗内存少。
注：因DOM需要将XML数据映射到内存中的树，一是比较慢，二是比较耗内存，而SAX流式读取XML文件，比较快，占用内存少，但需要用户实现回调函数（handler）

使用elementtree解析xml
- 测试文件：
  
  War, Thriller
  DVD
  2003
  PG
  10
  Talk about a US-Japan war
  
  Anime, Science Fiction
  DVD
  1989
  R
  8
  A schientific fiction
  
  Anime, Action
  DVD
  4
  PG
  10
  Vash the Stampede!
  
  Comedy
  VHS
  PG
  2
  Viewable boredom
  
```

解析xml

使用ElementTree.XML将字符串解析为xml对象

from xml.etree import ElementTree as ET

# 打开文件，读取XML内容

xml_str = open('test.xml','r',encoding='utf-8').read()

将字符串解析成xml特殊对象，root代指xml文件的根节点

root = ET.XML(xml_str)

使用ElementTree.parse将文件直接解析问xml对象

from xml.etree import ElementTree as ET

＃直接解析xml文件

tree = ET.parse('test.xml')

# 获取xml文件的根节点

root = tree.getroot()

ElementTree常用的方法：
- 属性
  - tag：string，元素代表的数据种类。
  - text：string，元素的内容。
  - tail：string，元素的尾形。
  - attrib：dictionary，元素的属性字典。
- 针对属性的操作
  - clear()：清空元素的后代、属性、text和tail也设置为None。
  - get(key, default=None)：获取key对应的属性值，如该属性不存在则返回default值。
  - items()：根据属性字典返回一个列表，列表元素为(key, value）。
  - keys()：返回包含所有元素属性键的列表。
  - set(key, value)：设置新的属性键与值。
- 针对后代的操作
  - append(subelement)：添加直系子元素。
  - extend(subelements)：增加一串元素对象作为子元素。＃python2.7新特性
  - find(match)：寻找第一个匹配子元素，匹配对象可以为tag或path。
  - findall(match)：寻找所有匹配子元素，匹配对象可以为tag或path。
  - findtext(match)：寻找第一个匹配子元素，返回其text值。匹配对象可以为tag或path。
  - insert(index, element)：在指定位置插入子元素。
  - iter(tag=None)：生成遍历当前元素所有后代或者给定tag的后代的迭代器。＃python2.7新特性
  - iterfind(match)：根据tag或path查找所有的后代。
  - itertext()：遍历所有后代并返回text值。
  - remove(subelement)：删除子元素。
  - getroot()：获取根节点.
打印xml信息

from xml.etree import ElementTree as ET

tree = ET.parse('test.xml')

root = tree.getroot()

print(root.tag)           #打印根标签

for i in root:

    print(i.tag,i.attrib)    #打印第二层节点的标签名称和属性

for i in root.iter('format'):     #循环打印所有format的标签,并打印名字和内容

    print(i.tag,i.text)

输出结果：

collection

movie {'title': 'Enemy Behind'}

movie {'title': 'Transformers'}

movie {'title': 'Trigun'}

movie {'title': 'Ishtar'}

format DVD

format DVD

format DVD

format VHS

修改xml内容

from xml.etree import ElementTree as ET

tree = ET.parse('test.xml')

root = tree.getroot()

for i in root.iter('year'):        #循环所有的year ,然后修改 值,并添加属性

    new_year = int(i.text) + 10

    node.txt = str(new_year)

    i.set('test','testadd')      #添加属性 test 值为testadd

保存xml

#解析xml文件方式 使用write()方法可直接保存

tree.write("new.xml", encoding='utf-8')

＃解析字符串方式，需将当前root转换为

tree = ET.ElementTree(root)

tree.write("new.xml", encoding='utf-8')

创建xml文件

from xml.etree import ElementTree as ET

＃创建节点

root = ET.Element("father")   ＃创建一个root根节点

child1 = ET.Element('child1',tag='大儿子' ,attrib={'name':'儿子1','年龄':''})

  ＃创建一个child1节点

child2 = ET.Element('child2',tag='小儿子' ,attrib={'name':'儿子2','年龄':''})

   ＃创建一个child2街店    

grandson1 = ET.Element('grandson1')  ＃创建一个grandson1节点

grandson2 = ET.Element('grandson2')  ＃创建一个grandson2节点

＃节点逻辑堆加

child1.append(grandson1)   ＃把grandson1加入到child1的下，成为其子节点

child2.append(grandson2)

root.append(child1)

root.append(child2)

＃保存xml到文件

tree = ET.ElementTree(root)

tree.write('xxoo.xml',encoding='utf-8', short_empty_elements=False)

方法1

from xml.etree import ElementTree as ET

root = ET.Element("father")

child1 = root.makeelement('child1',{'name':'儿子1','年龄':''})

child2 = root.makeelement('child2',{'name':'儿子2','年龄':''})

grandson1 = child1.makeelement('grandson1',{})

grandson2 = child2.makeelement('grandson2',{})

＃节点逻辑堆加

child1.append(grandson1)   ＃把grandson1加入到child1的下，成为其子节点

child2.append(grandson2)

root.append(child1)

root.append(child2)

＃保存xml到文件

tree = ET.ElementTree(root)

tree.write('xxoo.xml',encoding='utf-8', short_empty_elements=False)

方法2

from xml.etree import ElementTree as ET

# 创建根节点

root = ET.Element("father")

# 创建大儿子

child1 = ET.SubElement(root, " 大儿子", attrib={'name':'儿子1','年龄':''})

# 创建小儿子

child2 = ET.SubElement(root, "小儿子", attrib={'name':'儿子1','年龄':''})

# 在大儿子中创建一个孙子

grandson1 = ET.SubElement(child1,"grandson1")

grandson2 = ET.SubElement(child2,"grandson2")

et = ET.ElementTree(root)  #生成文档对象

et.write("xxoo.xml", encoding="utf-8", xml_declaration=True, short_empty_elements=False)

方法3

创建的xml文档：

<father><child1 name="儿子1" 年龄="22"><grandson1></grandson1></child1><child2 name="儿子2" 年龄="10"><grandson2></grandson2></child2></father>

由于原生保存的XML时默认无缩进，如果想要设置缩进的话， 需要修改保存方式：

from xml.etree import ElementTree as ET

from xml.dom import minidom

def prettify(elem):

    """将节点转换成字符串，并添加缩进。

    """

    rough_string = ET.tostring(elem, 'utf-8')

    reparsed = minidom.parseString(rough_string)

    return reparsed.toprettyxml(indent="\t")

root = ET.Element("father")

child1 = root.makeelement('child1',{'name':'儿子1','年龄':''})

child2 = root.makeelement('child2',{'name':'儿子2','年龄':''})

grandson1 = child1.makeelement('grandson1',{})

grandson2 = child2.makeelement('grandson2',{})

child1.append(grandson1)

child2.append(grandson2)

root.append(child1)

root.append(child2)

#tree = ET.ElementTree(root)

#tree.write('xxoo.html',encoding='utf-8', short_empty_elements=False)

raw_str = prettify(root)

f = open("xxoo.xml",'w',encoding='utf-8')

f.write(raw_str)

f.close()

效果：

<?xml version="1.0" ?>

<father>

    <child1 name="儿子1" 年龄="">

        <grandson1/>

    </child1>

    <child2 name="儿子2" 年龄="">

        <grandson2/>

    </child2>

</father>

xml解析模块的更多相关文章

第四十一节，xml处理模块
XML是实现不同语言或程序之间进行数据交换的协议,XML文件格式如下读xml文件 <data> <country name="Liechtenstein"> ...
python 解析XML python模块xml.dom解析xml实例代码
分享下python中使用模块xml.dom解析xml文件的实例代码,学习下python解析xml文件的方法. 原文转自:http://www.jbxue.com/article/16587.html ...
python的内置模块xml模块方法 xml解析详解以及使用
一.XML介绍 xml是实现不同语言或程序直接进行数据交换的协议,跟json差不多,单json使用起来更简单,不过现在还有很多传统公司的接口主要还是xml xml跟html都属于是标签语言我们主要学 ...
Python 爬虫笔记、多线程、xml解析、基础笔记（不定时更新）
1 Python学习网址:http://www.runoob.com/python/python-multithreading.html
使用NodeJS将XML解析成JSON及性能比较
并不是所有的API都是以JSON格式返回的.我们有时侯不得不处理一些XML.幸运的是有一个NodeJS模块 xml2js 可以帮你做这件事. 比如,我们要处理下面这段XML <?xml ...
Java数据库编程、XML解析技术
数据库编程 JDBC概述是Java Database Connecive,即数据库连接技术的简称,它提供了连接各种常用数据库的能力. 是一种用于执行SQL语句的Java API,可以为多种关系数据库 ...
【Python】xml 解析
1. XML:指可扩展标记语言,是一种标记语言,用于存储数据和传输数据,但没有像HTML那样具有预定义标签,需要程序猿自定义标签 2. XML的解析:读取XML数据结构中的某些信息,比如读取书的属性 ...
python的XML处理模块ElementTree
ElementTree是python的XML处理模块,它提供了一个轻量级的对象模型.它在Python2.5以后成为Python标准库的一部分,但是Python2.4之前需要单独安装.在使用Elemen ...
glib简单记录包括字符串，主循环，回调函数和xml解析
一.将最近用到的glib字符串功能整理了下直接用程序记录比较好看懂 #define MAX_LEN 100gchar * demo (char* msg, ...){ gchar * pcfgf ...

随机推荐

JDK动态代理和CGLib动态代理简单演示
JDK1.3之后,Java提供了动态代理的技术,允许开发者在运行期间创建接口的代理实例. 一.首先我们进行JDK动态代理的演示. 现在我们有一个简单的业务接口Saying,如下: package te ...
opencv 中对一个像素的rgb值或像素值进行操作的几个常用小办法【转】
You can access the Image pixels in many ways:1. One using the Inbuilt macro2. One using the pointer ...
sublime text2 打开包含中文的文件会自动追加.dump后缀解决办法
用sublime text2 打开.c, .h,.txt等文件会自动追加一个.dump后缀,這样在打开.c,.h等文件时无法正常识别,从而无法正常进行语法着色,网上说是因为安装了GBK Encodin ...
Bootstrap系列 -- 42. 导航条中的按钮、文本和链接
Bootstrap框架的导航条中除了使用navbar-brand中的a元素和navbar-nav的ul和navbar-form之外,还可以使用其他元素.框架提供了三种其他样式: 1.导航条中的按钮na ...
SSH登录之后运行命令报错的解决办法-- Failed to connect to Mir: Failed to connect to server socket: No such file or directory
问题描述: Failed to connect to Mir: Failed to connect to server socket: No such file or directory 解决方案: ...
matlab中的卷积——filter，conv之间的区别
%Matlab提供了计算线性卷积和两个多项式相乘的函数conv,语法格式w=conv(u,v),其中u和v分别是有限长度序列向量,w是u和v的卷积结果序列向量. %如果向量u和v的长度分别为N和M,则 ...
SQL复杂查询和视图(2)
分组查询 SQL可以将检索到的元组按某一条件进行分组,分组是属性值相同的为一组求每个学生的平均成绩 SELECT sn,AVG(score)FROM scGROUP BY sn 先按sn进行分组,即 ...
Android之Activity跳转
简述如果把每个activity看成一个页面的话,那么activity之间的跳转和页面的之间的跳转基本上是一样的.首先需要监听一个事件,当这个事件发生的时候,就进行跳转.html中有个<a sr ...
【JavaEE企业应用实战学习记录】requestListener
package sanglp.servlet; import javax.servlet.*; import javax.servlet.annotation.WebListener; import ...
zabbix3.0安装教程
一.Zabbix介绍 zabbix 简介 Zabbix 是一个高度集成的网络监控解决方案,可以提供企业级的开源分布式监控解决方案,由一个国外的团队持续维护更新,软件可以自由下载使用,运作团队靠提供收费 ...

xml解析模块

XML

python解析xml

使用elementtree解析xml

xml解析模块的更多相关文章

随机推荐

热门专题