XML

1.XML概述

XML可扩展标记语言是一种基于文本的语言用作应用程序之间的通信模式,是一个非常有用的描述结构化信息的技术。XML工具使得转化和处理数据变得十分容易,但同样也要领域相关的标准和代码库才能有效的使用XML,而JAVA则提供了极好的支持和丰富的库来解析、修改以及查询XML文档。

如果你已经学习过了XML,那么你就会发现,XML的语法和HTML的语法十分类似,两者的不同之处在于:XML的标签并不是预先定义好的,而是可以自定义标签,这也是它被称作可扩展标记语言的原因,应当注意的是,自定义的XML标签应当像JAVA中定义变量那样,见名知意。

XML可以用于任何技术进行数据的存储和传输。不过,XML同样拥有很明显的缺点,那就是内容比较冗杂。

下面是一个XML的栗子(表示字体以及字号):

<configuration>
<title>
<font>
<name>Helvetica</name>
<size>35</size>
</font>
</title>
<body>
<font>
<name>times roman</name>
<size>16</size>
</font>
</body>
</configuration>

2.XML文档的结构

  • XML文档拥有一个文档头:
<?xml version="1.0" encoding="utf-8">

虽说文档头是可选的,但是最好要将文档头写在XML文档中。

  • 文档头之后是文档类型定义:
<!DOCTYPE web-app PUBLIC ....>

文档类型的作用是用来保护文档,但不是必须的。

  • 最后是文档的正文,包含根元素,根元又素包括其他元素
<title>
<font>
<name>Helvetica</name>
<size>35</size>
</font>
</title>
<body>
<font>
<name>times roman</name>
<size>16</size>
</font>
</body>

元素可以有子元素、文本元素,或者两者皆有。如下:

<font>
Helevetia
<size>35</size>
</font>

但最好规避使用两者皆有的情况,这样做的好处是可以简化解析过程,后面我们就会见到这种情况。

XMl元素还可以包含属性,如:

<font name="Helevetia" size="36 pt"></font>

貌似你会觉得这种用法会比下面的用法简单一些:

<font>
<name>Helevetia</name>
<size>36</size>
</font>

但是,如果按照第一种做法,解析的时候会增加解析的难度,因为我们要解析的是“36 pt”而不是36。

为了避免这种麻烦,我们采取下面这样的做法:

<font>
<name>Helevetia</name>
<size unit="pt">36</szie>
</font>

这样会简单很多,如果不明白,不用着急,接下来我们可以仔细体会。另外,我们常用的经验是,属性只应该作为值的解释,而不应该作为值。

3.解析XML文档

要处理一个XML文档,就要对它进行解析。解析器首先读入一个文件,确认这个文件拥有正确的格式,然后将其分解成各种元素,然后程序就能够访问这些元素了。

JAVA库中有两种XML解析器:

  • 树形解析器(DOM):将读入的XML文档转换成树形结构
  • 流机制解析器(SAX):读入XML文件时生成对应的事件

我们首先介绍DOM的使用,因为这种方式能够满足我们大多数的需求:

  1. DOM使用方式

    • 创建一个DocumentBuilder对象
DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance();
DocumentBuilder builder = factory.newDocumentBuilder();
  • 从文件中读入文档
File f = ...
Document doc = builder.prase(f);
  1. 具体方法

    • getDocumentElement:启动对文档内容的分析,返回根元素
Element root = doc.getDocumentElement;
  • getTagName:返回标签名称
  • getChildNodes:得到元素的子元素,返回NodeList集合
NodeList children = root.getChildNodes();

如需遍历所有子元素,会用的上getLength方法获取总项数

  • getFirstChild:获取该节点的第一个子节点
  • getLastChild:获取该节点的最后一个节点

以上两个方法在没有获取到值的时候返回null

  • getNextSibling:获取该节点的下一个兄弟节点
  • getPreviousSibling:获取该节点的上一个兄弟节点
  • getParentNode:获取父节点
  • getNodeName:返回该节点的名字
  • getNodeValue:返回该节点的值

3.验证XML文档

使用DOM方式来操作XML文档时,会有大量的编程和错误检查,不但需要处理文档中的空白字符,还要检查是否与预期的一样。但是,XML能够自动校验某个XML文档是否具有正确的结构。

我们也可以自己指定文档的结构,可以使用文档类型定义以及XML Schema定义,这就相当于一种规则,指定了每个元素的合法元素和属性。例如下面这个文档类型定义:

<!ELEMENT font(name,size)>

这个定义规定了font元素必须有两个子元素。

值得注意的是,XML Schema能表达更加复杂的验证条件。

  1. 文档类型定义

    • 将定义纳入XML文档

      <?xml version="1.0"?>
      <!DOCTYPE configuration[
      <!ELEMNET configuration...>
      >

    这是一个文档类型定义的写法。

    我们将规则使用[]作为规范的限定,文档类型必须匹配根节点的名称!这里的缺点很明显,一旦规则很多,那么就会使得[]变得十分庞大。

    • 不同类型的规则

      • ELEMENT:指定某个元素可以拥有什么样子的子元素

        <!ELEMENT document (title,(introduce...))>

      当一个元素中存在文本时,只有两种情况是合法的。一种是只包含文本,另一种是包含任意顺序的文本和标签的组合,其他情况均不合法。

    有了文档类型的定义,调用方法来解析XML文件的时候,就不必再考虑如何消除文本的空白字符问题了。

  2. XML Schema

    如果希望在XML中使用Schema,就需要在根元素中添加属性:

    <xsd:element name="font">
    <xsd:sequence>
    <xsd:element name="name" type="xsd:String"/>
    <xsd:element name="size" type="xsd:int">
    </xsd:sequence>
    </xsd:element>

4.使用XPath定位信息

我们如果想定位下面这段XMl文件中的size值,使用遍历当然可以,但是非常麻烦,我们可以直接使用XPath表达式来进行定位。

<font>
<name>Helevetia</name>
<size>36</size>
</font>

表达式为:/font/size 这样就可以得到size的值了。

具体内容参考JAVA核心技术卷2.

5.使用命名空间

命名空间的主要作用就是避免名字冲突,这种做法在JAVA中十分常见

<xsd:element name="font">
<xsd:sequence>
<xsd:element name="name" type="xsd:String"/>
<xsd:element name="size" type="xsd:int">
</xsd:sequence>
</xsd:element>

这里的xsd就是一种命名空间。

6.流机制解析

流机制解析器主要应用在:文档很大,处理算法简单,可以在运行时解析结点,不必看到完整的解析树。

  1. 使用SAX解析器

XML是基于事件的解析器,在解析XML文档时不会创建解析树。

观察第4节中的内容,解析器在解析时会产生下面的调用:

(1) startElement 元素名:font
(2) startElement 元素名:name
(3) characters 内容:Helevetia
(4) endElement 元素名:name
(5) startElement 元素名:size
(6) characters 内容:36
(7) endElement 元素名:size
(8) endElement 元素名:font

2.使用StAX解析器

StAX是一种“拉解析器”,我们只需要使用最基本的循环就可以迭代出所有的事件

利用java库中的一些方法就可以实现这些操作,请参阅javaAPI

7.生成XML文档

我们可以使用文档内容来构建一棵DOM树,然后写出树中的所有内容。

  1. 不带命名空间的文档

首先得到一个空白的文档:

Document doc = builder.newDocment();

使用Document类的createElement方法构建文档元素:

Element rootElement = doc.createElement(rootName);

还可以使用createTextNode创建文本节点:

Text textNode = doc.createTextNode(text);

以及其他的一些操作。

2.带命名空间的文档

带命名空间文档与没有命名空间文档的生成区别在于:需要将生成器工厂设置成命名空间敏感的,然后再创建生成器。

生成节点的方法是createElementNS来创建所有的节点

创建完成后,我们就可以写出文档了。

本文参考:

    JAVA核心技术卷2:xml

感谢您的阅读,欢迎指正博客中存在的问题,也可以跟我联系,一起进步,一起交流!

微信公众号:进击的程序狗

邮箱:roobtyan@outlook.com

个人博客:https://roobtyan.github.io

XML技术详解的更多相关文章

  1. 手游录屏直播技术详解 | 直播 SDK 性能优化实践

    在上期<直播推流端弱网优化策略 >中,我们介绍了直播推流端是如何优化的.本期,将介绍手游直播中录屏的实现方式. 直播经过一年左右的快速发展,衍生出越来越丰富的业务形式,也覆盖越来越广的应用 ...

  2. Comet技术详解:基于HTTP长连接的Web端实时通信技术

    前言 一般来说,Web端即时通讯技术因受限于浏览器的设计限制,一直以来实现起来并不容易,主流的Web端即时通讯方案大致有4种:传统Ajax短轮询.Comet技术.WebSocket技术.SSE(Ser ...

  3. SSE技术详解:一种全新的HTML5服务器推送事件技术

    前言 一般来说,Web端即时通讯技术因受限于浏览器的设计限制,一直以来实现起来并不容易,主流的Web端即时通讯方案大致有4种:传统Ajax短轮询.Comet技术.WebSocket技术.SSE(Ser ...

  4. Protocol Buffer技术详解(语言规范)

    Protocol Buffer技术详解(语言规范) 该系列Blog的内容主体主要源自于Protocol Buffer的官方文档,而代码示例则抽取于当前正在开发的一个公司内部项目的Demo.这样做的目的 ...

  5. CDN学习笔记二(技术详解)

    一本好的入门书是带你进入陌生领域的明灯,<CDN技术详解>绝对是带你进入CDN行业的那盏最亮的明灯.因此,虽然只是纯粹的重点抄录,我也要把<CDN技术详解>的精华放上网.公诸同 ...

  6. CDN技术详解及实现原理

    CDN技术详解 一本好的入门书是带你进入陌生领域的明灯,<CDN技术详解>绝对是带你进入CDN行业的那盏最亮的明灯.因此,虽然只是纯粹的重点抄录,我也要把<CDN技术详解>的精 ...

  7. Python开发技术详解PDF

    Python开发技术详解(高清版)PDF 百度网盘 链接:https://pan.baidu.com/s/1F5J9mFfHKgwhkC5KuPd0Pw 提取码:xxy3 复制这段内容后打开百度网盘手 ...

  8. XML文件详解以及解析

    转自:https://blog.csdn.net/com_ma/article/details/73277535 一.xml基础详解: 1.概述: xml:即可扩展标记语言,xml是互联网数据传输的重 ...

  9. 《Tomcat与Java Web开发技术详解》思维导图

    越想构建上层建筑,就越觉得底层基础很重要.补课系列. 书是良心书,就是太基础了,正适合补课. [纯文字版] Tomcat与Java Web开发技术详解 Servlet Servlet的生命周期 初始化 ...

随机推荐

  1. 基于Ambari的WebUI实现集群扩容案例

    基于Ambari的WebUI实现集群扩容案例 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.将HDP的服务托管给Ambari服务 1>.点击“Service Auto S ...

  2. P 1038 统计同成绩学生

    转跳点:

  3. pip制作离线安装包

    有的电脑无法连接外网(金融行业你懂的),上网下载包又下载不到 anaconda安装一个包(联网情况下)很简单 pip install python-docx 如何把python-docx做成离线包安装 ...

  4. 第九届蓝桥杯省赛c/c++真题明码题解答案,另类excel解法思路

    直到快比赛才重视起之前学校给报了蓝桥杯,且这段时间一直在做Python,所以没做什么准备. 赛场上做这道题时连反码补码的知识点都记混,所以直接用了excel做这道题目,分享下做题思路.及题解. 标题: ...

  5. Windows平台整合SpringBoot+KAFKA_第1部分_环境配置部分

    项目需要,需要整合 SpringBoot+KAFKA 我调查了一下,发现Linux中,要先装zoomkeeper,再装KAFKA,如  https://blog.csdn.net/zhangcongy ...

  6. 111-PHP类变量之间的赋值标识为同一个对象

    <?php class mao{ //定义猫类 public $age=0; //定义多个属性并初始化 public $weight=50; public $color='white'; } $ ...

  7. opencv运动物体识别

    import cv2 import time import datetime import os def mkdir(path): folder = os.path.exists(path) if n ...

  8. junit基础学习之-简介(1)

    JUnit介绍 JUnit是一个开源的Java单元测试框架,由 Erich Gamma 和 Kent Beck 开发完成. 1  JUnit简介 JUnit主要用来帮助开发人员进行Java的单元测试, ...

  9. kibana下载与安装

    目录 简介 下载 安装 测试 简介 Kibana是一个为ElasticSearch 提供的数据分析的 Web 接口.可使用它对日志进行高效的搜索.可视化.分析等各种操作.安装之前有话说: 安装路径不要 ...

  10. 使用jackson转换类型时报Unrecognized field

    调用 objectMapper.convertValue(obj, valueType ); 时报错 原因 obj 的属性多于 valueType 导致,添加一条语句即可 objectMapper.c ...