xml与json是常用的文件交换格式,常用来表示网页的html则是xml的变种。解析xml和json在web开发中有着重要应用。

DOM解析XML

文件对象模型(Document Object Model,简称DOM),是W3C组织推荐的处理可扩展置标语言的标准编程接口。

DOM 的解析器在解析一个 XML 文档时,一次性读取整个文档,把文档中所有元素保存在内存中的一个树结构里,然后可以使用DOM API访问或修改xml。

xml示例:

<!-- movies.xml -->
<collection type="New Arrivals">
<movie title="Enemy Behind">
<stars>10</stars>
<description>Talk about a US-Japan war</description>
</movie>
<movie title="Transformers">
<stars>8</stars>
<description>A schientific fiction</description>
</movie>
</collection>

python中用xml.dom.minidom来解析xml:

import xml.dom.minidom

DOMTree = xml.dom.minidom.parse("movies.xml")
collection = DOMTree.documentElement
if collection.hasAttribute("shelf"):
print("Root element : %s" % collection.getAttribute("type"))
# get attribute of an element movies = collection.getElementsByTagName("movie")
# get child elements' collection by tag name for movie in movies:
print("*****Movie*****")
if movie.hasAttribute("title"):
print "Title: %s" % movie.getAttribute("title") stars = movie.getElementsByTagName('stars')[0]
print ("Stars: %s" % stars.childNodes[0].data) description = movie.getElementsByTagName('description')[0]
print ("Description: %s" % description.childNodes[0].data)

SAX解析XML

SAX是一种基于事件驱动的xml解析器,SAX包括两个部分解析器和事件处理器。解析器负责读取xml文件并向事件处理器发送消息。事件处理器主要需要对三个事件进行处理:

  • startElement 元素开始事件,当读取元素头标签时触发

  • endElement 元素结束事件,当读取元素头标签时触发

  • characters 内容事件,当读取元素头标签与尾标签之间内容时触发

解析器由Python提供,事件处理器需要继承xml.sax.ContentHandler类并重写相应的事件处理函数:

import xml.sax

class MovieHandler( xml.sax.ContentHandler ):
def __init__(self):
self.currentTag = ""
self.stars = ""
self.description = "" def startElement(self, tag, attributes):
# "tag" stands for the name of current tag
# "attributes" is a dict of attributes of current tag
self.currentTag = tag
if tag == "movie" :
print "*****Movie*****"
title = attributes["title"]
print "Title:", title
#only parse tag <movie>, ignore other tags def endElement(self, tag):
if self.currentTag == "stars":
print "Stars:", self.stars
elif self.currentTag == "description":
print "Description:", self.description
self.currentTag = "" def characters(self, content):
# "content" stands for the str between <tag> and </tag>
if self.currentTag == "stars":
self.stars = content
elif self.currentTag == "description":
self.description = content if __name__ == "__main__" : # create XMLReader
parser = xml.sax.make_parser() # implement ContextHandler
Handler = MovieHandler()
parser.setContentHandler( Handler ) parser.parse("movie.xml")

JSON解析

JSON(JavaScript Object Notation),是一种轻量级的数据交换格式。JSON 语法是 JavaScript 对象表示语法的子集:

  • 数据保存在键值对中
  • 键值对之间用","分隔
  • "{}"保存字典(JS中的对象)
  • "[]"保存列表(JS中的数组)

示例:

>>> import json
>>> obj = [True, False,None, 3.14, [1,2,3], {'name':'user'}];
>>>> jsonString = json.dumps(obj)
>>> print(jsonString)
[true, false, null, 3.14, [1, 2, 3], {"name": "user"}]
>>> json.loads(jsonString)
[True, False, None, 3.14, [1, 2, 3], {u'name': u'user'}]

json.dumps方法提供了很多参数可供选择,比较常用的有sort_keys(对dict对象进行排序,默认dict是无序存放的),separators,indent等参数。

json模块只能对Python内置类型进行编码。若要使自定义类可以编码,需要自定义MyEncoder类继承json.JSONEncoder并重写default方法返回一个dict,其中的键值对将被添加到JSON中。

调用MyEncoder.encode(obj)方法,将会根据default方法的定义返回JSON字符串。

自定义MyDecoder类,并继承json.JSONDecoder。并在初始化JSONDecoder类时向object_hook参数传入一个可以将dict转换为类的方法对象。

Tips:

  • obj.__dict__是一个包含当前对象所有属性(不包括方法)的字典,无需手动添加属性。

  • 使用getattr(module,class_name)获得类(type对象)

示例:

import json

class Person(object):
"""docstring for Person"""
def __init__(self, name, age):
self.name = name
self.age = age class MyEncoder(json.JSONEncoder):
def default(self,obj):
#convert object to a dict
d = {}
d['__class__'] = obj.__class__.__name__
d['__module__'] = obj.__module__
d.update(obj.__dict__)
return d class MyDecoder(json.JSONDecoder):
def __init__(self):
json.JSONDecoder.__init__(self,object_hook=self.dict2object) def dict2object(self,d):
#convert dict to object
if '__class__' in d:
class_name = d.pop('__class__')
module_name = d.pop('__module__')
module = __import__(module_name)
class_ = getattr(module,class_name)
args = dict((key.encode('ascii'), value) for key, value in d.items()) #get args
inst = class_(**args) #create new instance
else:
inst = d
return inst p = Person('Peter',22)
d = MyEncoder().encode(p)
o = MyDecoder().decode(d) print d
print type(o), o

Python解析xml与JSON的更多相关文章

  1. python 解析XML python模块xml.dom解析xml实例代码

    分享下python中使用模块xml.dom解析xml文件的实例代码,学习下python解析xml文件的方法. 原文转自:http://www.jbxue.com/article/16587.html ...

  2. python解析xml模块封装代码

    在python中解析xml文件的模块用法,以及对模块封装的方法.原文转自:http://www.jbxue.com/article/16586.html 有如下的xml文件:<?xml vers ...

  3. python解析xml之lxml

    虽然python解析xml的库很多,但是,由于lxml在底层是用C语言实现的,所以lxml在速度上有明显优势.除了速度上的优势,lxml在使用方面,易用性也非常好.这里将以下面的xml数据为例,介绍l ...

  4. python解析xml

    python解析xml import xml.dom.minidom as minidom dom = minidom.parse("aa.xml") root = dom.get ...

  5. python 解析xml

    在工作中很多时候都要用到xml,使用这个时候难免会设计到解析他,然后就研究了一下python解析xml问题,看了很多东西,python有很多解析xml的包,但是也折腾我好一段时间,最后选择了这个方法. ...

  6. Python 解析 XML 文件生成 HTML

    XML文件result.xml,内容如下: <ccm> <metric> <complexity>1</complexity> <unit> ...

  7. Python 解析XML实例(xml.sax)

    已知movies.xml <collection shelf="New Arrivals"> <movie title="Enemy Behind&qu ...

  8. boost-使用property_tree来解析xml、json

    property_tree是一个保存了多个属性值的树形数据结构,可以用来解析xml.json.ini.info文件.要使用property_tree和xml解析组件的话需要包含"boost/ ...

  9. 横向对比分析Python解析XML的四种方式

    横向对比分析Python解析XML的四种方式 在最初学习PYTHON的时候,只知道有DOM和SAX两种解析方法,但是其效率都不够理想,由于需要处理的文件数量太大,这两种方式耗时太高无法接受. 在网络搜 ...

随机推荐

  1. python——排序

    从学校毕业出来后只知道冒泡排序,发现自己对排序的了解还是很浅显. 于是在网上搜索各种排序方法,以下是本人根据索搜出来的资料再结合自己理解作出的一些简单的阐述. 如果有不正确的地方欢迎大家指正.(共同学 ...

  2. 根据已有的Jar包 一键生成对应的mavenpom.xml信息

    根据已有的jar包信息一键生成对应的maven坐标信息 .想一个问题 假如 我有一个SSH的项目, jar包是配置在lib中, 我现在想把它做成maven格式的SSH项目  ,那么这些jar包在mav ...

  3. css实现带箭头的流程条

    直接上效果图: <ul class="navs"> <li>1</li> <li>2</li> <li>3& ...

  4. 无头结点的单链表(C语言)

    1.单链表: 在顺序表中,用一组地址连续的存储单元来一次存放线性表的结点,因此结点的逻辑顺序与物理顺序是一致的.但链表却不同,链表是用一组任意的存储单元来存放 线性表的结点,这组存储单元可以是连续的, ...

  5. QuantLib 金融计算——高级话题之模拟跳扩散过程

    目录 QuantLib 金融计算--高级话题之模拟跳扩散过程 跳扩散过程 模拟算法 面临的问题 "脏"的方法 "干净"的方法 实现 示例 参考文献 如果未做特别 ...

  6. (转) centos 7.0 nginx 1.7.9成功安装过程

    centos 7.0根目录 的目录构成 [root@localhost /]# lsbin dev home lib64 mnt proc run srv tmp varboot etc lib me ...

  7. python的 del 函数是删对象还是删引用

    1.首先介绍下python的对象引用 1)Python中不存在传值调用,一切传递的都是对象引用,也可以认为是传址调用.即Python不允许程序员选择采用传值或传引用.Python参数传递采用的是“传对 ...

  8. spring 接收前台ajax传来的参数的几个方法

    知识补充 JSON.stringify(), 将value(Object,Array,String,Number...)序列化为JSON字符串JSON.parse(), 将JSON数据解析为js原生值 ...

  9. spring boot整合RabbitMQ(Topic模式)

    1.Topic交换器介绍 Topic Exchange 转发消息主要是根据通配符. 在这种交换机下,队列和交换机的绑定会定义一种路由模式,那么,通配符就要在这种路由模式和路由键之间匹配后交换机才能转发 ...

  10. docker - 修改镜像/容器文件或者 "Docker root dir" 的在宿主机上的存储位置

    背景 之前在使用docker的时候,由于启动container的时候用的是默认的mount(路径为 /var/lib/docker),这个目录对应的硬盘空间有限,只有200G左右.现在随着程序运行,有 ...