python于lxml应用

首先下载lxml， http://www.lfd.uci.edu/~gohlke/pythonlibs/ ，然后加入引用

from
lxml
import _elementpath
as
DONTUSE

from
lxml
import etree

详细演示样例：

1.加入命名空间

#set namespace

nsmap = {"xsi":
"http://www.w3.org/2001/XMLSchema-instance"
}

g_statisticsRoot = etree.Element("DcmStatistics",
nsmap = nsmap)

2.加入xml schema引用

#add xsd reference

g_statisticsRoot.set("{http://www.w3.org/2001/XMLSchema-instance}noNamespaceSchemaLocation",
"DcmStatistics.xsd"
)

3.加入凝视

#add comment。利用addprevious加入到根节点的前面

comment = etree.Comment("create by jiangong.li")

g_statisticsRoot.addprevious(comment)

4.尝试多种编码来解析xml

def
decodingXml(xmlFile):

tree = None

encoding =
"utf-8"

while(True):

try:

parser = etree.XMLParser(remove_blank_text=
True, encoding=encoding, remove_comments =
False)

tree = etree.parse(xmlFile, parser)

except
Exception
as
e:

if
(encoding !=
"gb18030"):

encoding =
"gb18030"

continue

else:

print(
"\nPAR XML ERROR, decoding error."
)

break

return
tree

5.遍历xml下的全部子节点，不止直属第一级子节点.
iter()

for
element
in
root.iter():

element.tail
=
None

6.遍历xml下的第一级子节点.
iterchildren()

for
e
in srcParentNode.iterchildren():

if
e
is srcParentNode:

continue

name =
""

#statistics node

if e.tag ==
"element":

name =
"Element"

elif
e.tag ==
"sequence":

name =
"Sequence"

elif
e.tag ==
"item":

name =
"Item"

else:

print(
"\nUnsupported element type: %s\n"
%(e.tag))

name = e.tag

# Only parse element/sequence/item

continue

7.加入子节点到尾部.
append()

def
getXmlElement(nodeName, parentNode):

if
parentNode == None:

raise
Exception(
"parent node is None")

nodes = parentNode.xpath(
'./'+nodeName)

if
len(nodes) == 0:

node = etree.Element(nodeName)

parentNode.append(node)

return
node

else:

return
nodes[0]

8.格式化成str输出

etree.tostring(g_statisticsRoot, encoding=
"UTF-8", xml_declaration=True
, pretty_print=True, with_comments=True
)

9.保存成xml文件

statisticsResult = open(g_xmlName,
"bw+")

statisticsResult.write(etree.tostring(g_statisticsRoot, encoding=
"UTF-8", xml_declaration=True,
pretty_print=True
, with_comments=True))

statisticsResult.flush()

statisticsResult.close()

python于lxml应用的更多相关文章

Windows下Python安装lxml
1.下载easy_install的安装包,下载地址:https://pypi.Python.org/pypi/setuptools 我是Windows7,所以直接下载Windows(Simplify) ...
【python】lxml中多个xml采用相同节点时出现的问题
今天突然发现了一个lxml的坑. 假设我们有一个节点 <id>123</id> 有两个父节点都要用上述节点,则必须把上面的节点写两遍!用同一个会出错! 出错例子: #!/usr ...
【python】lxml
来源:http://lxml.de/tutorial.html lxml是python中处理xml的一个非常强大的库,可以非常方便的解析和生成xml文件.下面的内容翻译了链接中的一部分 1.生成空xm ...
【python】lxml查找属性为指定值的节点
假设有如下xml在/home/abc.xml位置 <A> <B id=" name="apple"/> <B id=" name= ...
Python之lxml
作者:Shane 出处:http://bluescorpio.cnblogs.com lxml takes all the pain out of XML. Stephan Richter lxml是 ...
在MacOS下Python安装lxml报错xmlversion.h not found 报错的解决方案
最近在看一个自动化测试框架的问题,需要用到Lxml库,下载lxml总是报错. 1,使用pip安装lxml pip install lxml 2,然后报错了,报错内容是: In file include ...
Python使用lxml模块和Requests模块抓取HTML页面的教程
Web抓取Web站点使用HTML描述,这意味着每个web页面是一个结构化的文档.有时从中获取数据同时保持它的结构是有用的.web站点不总是以容易处理的格式, 如 csv 或者 json 提供它们的数 ...
Python 安装 lxml 插件
1.下载 lxml 地址:https://pypi.python.org/pypi/lxml/3.8.0#downloads 我用的是python 3.6,我下载了 lxml-3.8.0-cp36- ...
windows下使用pip安装python模块lxml
pip install lxml 1 1 会有如下问题: 结果一路解决下去,解决了一个坑还是有一个坑,遂放弃,查找有没有别的解决办法. 亲测使用wheel+pip可以成功安装lxml! wheel本 ...
【Python】Python加lxml实现图片解析下载功能
1.下载网页:OpenHtml.py import urllib.request from urllib.parse import quote class HtmlLoader(object): de ...

随机推荐

Fragment Summary 2/2
出处:http://blog.csdn.net/lmj623565791/article/details/37992017 上篇博客中已经介绍了Fragment产生原因,以及一些基本的用法和各种API ...
(转)oracle常用的数据字典
一.oracle数据字典主要由以下几种视图构成: .user视图以user_为前缀,用来记录用户对象的信息 .all视图以all_为前缀,用来记录用户对象的信息及被授权访问的对象信息 .dba视图 ...
DC中检查脚本错误
dcprocheck + 要检查的tcl文件
洛谷—— P1018 乘积最大
https://www.luogu.org/problem/show?pid=1018#sub 题目描述今年是国际数学联盟确定的“2000――世界数学年”,又恰逢我国著名数学家华罗庚先生诞辰90周年 ...
maven 配置Project Facets时further configuration available不出来问题
如果下边的 further configuration available不出来把Dynamic web module 去掉勾选,应用与项目,然后再点开项目的properties,再选中Dynami ...
Springboot + shiro 整合之Url拦截设置（转）
shiro 整合到springboot 还是比较简单的,只需要新建一个spring-shiro.xml的配置文件: <span style="font-size:14px;" ...
[TypeScript] The Basics of Generics in TypeScript
It can be painful to write the same function repeatedly with different types. Typescript generics al ...
算法 Tricks（五）—— 将一个序列量化为何值时平方误差最小
设数列为 A[],区间在 [a, b],设使量化后误差平方最小的数值为 m,则误差平方关于 m 的函数可以写作如下形式: ∑i=ab(A[i]−m)2=(b−a+1)⋅m2−2m∑i=abA[i]+∑ ...
Android使用BitmapFactory.Options解决加载大图片内存溢出问题
由于Android对图片使用内存有限制,若是加载几兆的大图片便内存溢出.Bitmap会将图片的所有像素(即长x宽)加载到内存中,如果图片分辨率过大,会直接导致内存溢出(java.lang.OutOfM ...
解决Eclipse中文乱码分类： B1_JAVA 2014-06-25 11:23 336人阅读评论(0) 收藏
使用Eclipse编辑文件经常出现中文乱码或者文件中有中文不能保存的问题,Eclipse提供了灵活的设置文件编码格式的选项,我们可以通过设置编码格式解决乱码问题.在Eclipse可以从几个层面设置编 ...

python于lxml应用

python于lxml应用的更多相关文章

随机推荐

热门专题