python练习三—解析xml

使用python解析xml，主要使用sax的ContentHandler中的标签开始和标签结束的方法驱动，然后在开始（或者结束）事件中决定使用什么处理方法，使用dispatcher来决定并分发到指定方法内处理处理流程如下：

初始化的时候创建一个目录list
遇到page在当前目录下新建一个html文件，标志接下来的标签是要使用default处理，写到html页面中
遇到page内部的标签，使用default处理
遇到page结束标签，该html写完，填充结尾标签，关闭流
遇到directory标签，往directory的list】中添加下以及目录名称
遇到page重复第1,2,3步
解析完成

代码如下

#! /usr/bin/env python

# -*- coding=utf-8 -*-

import os

import sys

from xml.sax.handler import ContentHandler

from xml.sax import parse

class Dispatcher:

    '''

    根据具体的xml标签分发到具体的解析函数解析

    '''

    def dispatch(self, prefix, name, attrs=None):

        mname = prefix + name.capitalize()

        dname = 'default' + prefix.capitalize()

        method = getattr(self, mname, None)

        if callable(method):

            # 如果有该标签的处理方法则使用该方法处理，并初始化需要传递的参数

            args = ()

        else:

            # 如果没有该标签的处理方法，则采用默认的处理方法，将标签内的内容作为正文

            method = getattr(self, dname, None)

            # 默认处理函数需要传递标签名称

            args = name,

        # 如果是调用开始处理函数， 需要传递该标签的属性

        if prefix == 'start':

            args += attrs,

        if callable(method):

            method(*args)

    # 重载父类的startElement方法

    def startElement(self, name, attrs):

        self.dispatch('start', name, attrs)

    # 重载父类的endElement方法

    def endElement(self, name):

        self.dispatch('end', name)

class WebsiteConstructor(Dispatcher, ContentHandler):

    '''

    分析website.xml构建html网页

    '''

    # 该标签是否是正文，是否被page包裹，是否需要解析

    passthrough = False

    def __init__(self, directory):

        self.directory = [directory]

        self.ensureDirectory()

    def ensureDirectory(self):

        path = os.path.join(*self.directory)

        if not os.path.isdir(path):

            os.makedirs(path)

    def characters(self, chars):

       if self.passthrough:

           self.out.write(chars)

    def defaultStart(self, name, attrs):

        if self.passthrough:

            self.out.write('<' + name)

            print '-----'

            print attrs

            for key, val in attrs.items():

                self.out.write(' %s=%s' % (key, val))

                print key,val

            self.out.write('>')

    def defaultEnd(self, name):

        if self.passthrough:

            self.out.write('</%s>' % name)

    def startDirectory(self, attrs):

        self.directory.append(attrs['name'])

        self.ensureDirectory()

    def endDirectory(self):

        self.directory.pop()

    def startPage(self, attrs):

        filename = os.path.join(*self.directory + [attrs['name'] + '.html'])

        self.out = open(filename, 'w')

        print os.path

        print filename

        print self.directory

        print self.directory + [attrs['name'] + '.html']

        self.writeHeader(attrs['title'])

        self.passthrough = True

    def endPage(self):

        self.passthrough = False

        self.writeFooter()

        self.out.close()

    def writeHeader(self, title):

        self.out.write('<html>\n    <head>\n    <title>')

        self.out.write(title)

        self.out.write('</title>\n  </head>\n   <body>\n')

    def writeFooter(self):

        self.out.write('\n  </body>\n</html>\n')

# 执行程序

parse('website.xml', WebsiteConstructor('public_html'))

参照书中写完代码之后，发现"args += attrs"一直报错，调试的时候发现

TypeError: coercing to Unicode: need string or buffer, instance found

在"+="运算符连边需要的是string或者buffer，实际上是instance，在这条语句里面attrs是AttributesImpl的对象，前面"args = name"将name赋值给args，args是string，所以attrs类型不对，一开始还以为是ContentHandler API改变了（因为该书已经比较早了），在ipython交互命令行中查看帮助文档，发现没有错，折腾调试了挺久，对照书中源码发现有两处少了","，当时已经疯了。。。。。

args = name,

args += attrs,

少了上面两个逗号，内心的崩溃啊，由此可见自己python基本知识还是漏了

args = name # args仅仅是一个对象，并不是元组

args = name, # args是一个元组

一个逗号引发的血案。。。。。

还有就是"+="，该运算符两边类型必须一致，都是字符串（列表，元组）

完整代码

http://pan.baidu.com/s/1pLqxLKv

python练习三—解析xml的更多相关文章

[python]使用ElementTree解析XML【译】
19.7 The ElementTree XML API 源码:Lib/xml/etree/ElementTree.py Element类型是一个灵活的容器对象,设计出来是用于存储有层次的数据结构到内 ...
python使用SAX解析xml
python 标准库包含SAX解析器,SAX用事件驱动模型,通过在解析XML的过程中触发一个个的事件并调用用户定义的回调函数来处理XML文件在python中使用sax方式处理xml要先引入xml.s ...
ZH奶酪：Python使用ElementTree解析XML【译】
19.7. xml.etree.ElementTree — The ElementTree XML API 源代码: Lib/xml/etree/ElementTree.py Element类型是一种 ...
Python requests模块解析XML
检查QQ是否在线(api感觉不准) import requests from xml.etree import ElementTree qq_str = input('please input the ...
python 使用ElementTree解析xml
以country.xml为例,内容如下: <?xml version="1.0"?> <data> <country name="Liech ...
python 解析xml
在工作中很多时候都要用到xml,使用这个时候难免会设计到解析他,然后就研究了一下python解析xml问题,看了很多东西,python有很多解析xml的包,但是也折腾我好一段时间,最后选择了这个方法. ...
python 之模块之 xml.dom.minidom解析xml
# -*- coding: cp936 -*- #python 27 #xiaodeng #python 之模块之 xml.dom.minidom解析xml #http://www.cnblogs.c ...
python解析xml文件时使用ElementTree和cElementTree的不同点；iter
在python中,解析xml文件时,会选用ElementTree或者cElementTree,那么两者有什么不同呢? 1.cElementTree速度上要比ElementTree快,比较cElemen ...
用 ElementTree 在 Python 中解析 XML
用 ElementTree 在 Python 中解析 XML 原文: http://eli.thegreenplace.net/2012/03/15/processing-xml-in-python- ...

随机推荐

解决mysql for docker容器报错：Authentication plugin 'caching_sha2_password' cannot be loaded
为图方便,懒得在mac上安装mysql了,一个是管理不方便,第二个是为了方便多机器同步开发环境.就使用docker安装了. 拉取mysql镜像 docker pull mysql 运行mysql实例 ...
JAVA的环境变量配置
开发JAVA程序需要先准备开发环境,安装好操作系统后首先需要去下载JDK并安装. JDk(Java Development Kit )是Java开发工具包,如果您要开发基于Java的应用首先需要下载并 ...
mysql 数据库链接过期产品
注意下面的"@" 必须要加的!否则会报错! $link = @mysql_connect('localhost','root','root') or die("link ...
第45章：MongoDB-集群--Sharding(分片)--分片的管理
①列出所有的Shard db.runCommand({“listshards”:1}); ②查看分片信息 db.printShardingStatus(); ③判断是否分片 db.runCommand ...
【慕课网实战】三、以慕课网日志分析为例进入大数据 Spark SQL 的世界
前置要求: 1)Building Spark using Maven requires Maven 3.3.9 or newer and Java 7+ 2)export MAVEN_OPTS=&qu ...
DNS: Internet’s Directory
关于DNS 互联网上几乎一切活动都以DNS请求开始.DNS(Domain Name System)是Internet的目录.访问URL时,设备所要做的第一件事就是询问目录,根据域名查出IP地址. 查询 ...
图像处理及opencv汇总
OPENCV——C++ 1.windows基于vs2017的opencv安装 2.为opencv添加contrib库 3.opencv源码编写规则 4.OpenCV库框架结构 5.OpenCV从2到3 ...
mybatis 中的缓冲
package com.oaec.mybatis.test; import com.oaec.mybatis.dao.StudentDao;import com.oaec.mybatis.entity ...
玩转Kafka的生产者——分区器与多线程
上篇文章学习kafka的基本安装和基础概念,本文主要是学习kafka的常用API.其中包括生产者和消费者, 多线程生产者,多线程消费者,自定义分区等,当然还包括一些避坑指南. 首发于个人网站:链接地址 ...
Java并发编程基础——同步
一.synchronized 关键字 1)synchronized 锁什么?锁对象.可能锁对象包括: this, 临界资源对象,Class 类对象.如同下面例子所示: package cn.test. ...

python练习三—解析xml

python练习三—解析xml的更多相关文章

随机推荐

热门专题