XML

1.XML概述

XML可扩展标记语言是一种基于文本的语言用作应用程序之间的通信模式,是一个非常有用的描述结构化信息的技术。XML工具使得转化和处理数据变得十分容易,但同样也要领域相关的标准和代码库才能有效的使用XML,而JAVA则提供了极好的支持和丰富的库来解析、修改以及查询XML文档。

如果你已经学习过了XML,那么你就会发现,XML的语法和HTML的语法十分类似,两者的不同之处在于:XML的标签并不是预先定义好的,而是可以自定义标签,这也是它被称作可扩展标记语言的原因,应当注意的是,自定义的XML标签应当像JAVA中定义变量那样,见名知意。

XML可以用于任何技术进行数据的存储和传输。不过,XML同样拥有很明显的缺点,那就是内容比较冗杂。

下面是一个XML的栗子(表示字体以及字号):

<configuration>
<title>
<font>
<name>Helvetica</name>
<size>35</size>
</font>
</title>
<body>
<font>
<name>times roman</name>
<size>16</size>
</font>
</body>
</configuration>

2.XML文档的结构

  • XML文档拥有一个文档头:
<?xml version="1.0" encoding="utf-8">

虽说文档头是可选的,但是最好要将文档头写在XML文档中。

  • 文档头之后是文档类型定义:
<!DOCTYPE web-app PUBLIC ....>

文档类型的作用是用来保护文档,但不是必须的。

  • 最后是文档的正文,包含根元素,根元又素包括其他元素
<title>
<font>
<name>Helvetica</name>
<size>35</size>
</font>
</title>
<body>
<font>
<name>times roman</name>
<size>16</size>
</font>
</body>

元素可以有子元素、文本元素,或者两者皆有。如下:

<font>
Helevetia
<size>35</size>
</font>

但最好规避使用两者皆有的情况,这样做的好处是可以简化解析过程,后面我们就会见到这种情况。

XMl元素还可以包含属性,如:

<font name="Helevetia" size="36 pt"></font>

貌似你会觉得这种用法会比下面的用法简单一些:

<font>
<name>Helevetia</name>
<size>36</size>
</font>

但是,如果按照第一种做法,解析的时候会增加解析的难度,因为我们要解析的是“36 pt”而不是36。

为了避免这种麻烦,我们采取下面这样的做法:

<font>
<name>Helevetia</name>
<size unit="pt">36</szie>
</font>

这样会简单很多,如果不明白,不用着急,接下来我们可以仔细体会。另外,我们常用的经验是,属性只应该作为值的解释,而不应该作为值。

3.解析XML文档

要处理一个XML文档,就要对它进行解析。解析器首先读入一个文件,确认这个文件拥有正确的格式,然后将其分解成各种元素,然后程序就能够访问这些元素了。

JAVA库中有两种XML解析器:

  • 树形解析器(DOM):将读入的XML文档转换成树形结构
  • 流机制解析器(SAX):读入XML文件时生成对应的事件

我们首先介绍DOM的使用,因为这种方式能够满足我们大多数的需求:

  1. DOM使用方式

    • 创建一个DocumentBuilder对象
DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance();
DocumentBuilder builder = factory.newDocumentBuilder();
  • 从文件中读入文档
File f = ...
Document doc = builder.prase(f);
  1. 具体方法

    • getDocumentElement:启动对文档内容的分析,返回根元素
Element root = doc.getDocumentElement;
  • getTagName:返回标签名称
  • getChildNodes:得到元素的子元素,返回NodeList集合
NodeList children = root.getChildNodes();

如需遍历所有子元素,会用的上getLength方法获取总项数

  • getFirstChild:获取该节点的第一个子节点
  • getLastChild:获取该节点的最后一个节点

以上两个方法在没有获取到值的时候返回null

  • getNextSibling:获取该节点的下一个兄弟节点
  • getPreviousSibling:获取该节点的上一个兄弟节点
  • getParentNode:获取父节点
  • getNodeName:返回该节点的名字
  • getNodeValue:返回该节点的值

3.验证XML文档

使用DOM方式来操作XML文档时,会有大量的编程和错误检查,不但需要处理文档中的空白字符,还要检查是否与预期的一样。但是,XML能够自动校验某个XML文档是否具有正确的结构。

我们也可以自己指定文档的结构,可以使用文档类型定义以及XML Schema定义,这就相当于一种规则,指定了每个元素的合法元素和属性。例如下面这个文档类型定义:

<!ELEMENT font(name,size)>

这个定义规定了font元素必须有两个子元素。

值得注意的是,XML Schema能表达更加复杂的验证条件。

  1. 文档类型定义

    • 将定义纳入XML文档

      <?xml version="1.0"?>
      <!DOCTYPE configuration[
      <!ELEMNET configuration...>
      >

    这是一个文档类型定义的写法。

    我们将规则使用[]作为规范的限定,文档类型必须匹配根节点的名称!这里的缺点很明显,一旦规则很多,那么就会使得[]变得十分庞大。

    • 不同类型的规则

      • ELEMENT:指定某个元素可以拥有什么样子的子元素

        <!ELEMENT document (title,(introduce...))>

      当一个元素中存在文本时,只有两种情况是合法的。一种是只包含文本,另一种是包含任意顺序的文本和标签的组合,其他情况均不合法。

    有了文档类型的定义,调用方法来解析XML文件的时候,就不必再考虑如何消除文本的空白字符问题了。

  2. XML Schema

    如果希望在XML中使用Schema,就需要在根元素中添加属性:

    <xsd:element name="font">
    <xsd:sequence>
    <xsd:element name="name" type="xsd:String"/>
    <xsd:element name="size" type="xsd:int">
    </xsd:sequence>
    </xsd:element>

4.使用XPath定位信息

我们如果想定位下面这段XMl文件中的size值,使用遍历当然可以,但是非常麻烦,我们可以直接使用XPath表达式来进行定位。

<font>
<name>Helevetia</name>
<size>36</size>
</font>

表达式为:/font/size 这样就可以得到size的值了。

具体内容参考JAVA核心技术卷2.

5.使用命名空间

命名空间的主要作用就是避免名字冲突,这种做法在JAVA中十分常见

<xsd:element name="font">
<xsd:sequence>
<xsd:element name="name" type="xsd:String"/>
<xsd:element name="size" type="xsd:int">
</xsd:sequence>
</xsd:element>

这里的xsd就是一种命名空间。

6.流机制解析

流机制解析器主要应用在:文档很大,处理算法简单,可以在运行时解析结点,不必看到完整的解析树。

  1. 使用SAX解析器

XML是基于事件的解析器,在解析XML文档时不会创建解析树。

观察第4节中的内容,解析器在解析时会产生下面的调用:

(1) startElement 元素名:font
(2) startElement 元素名:name
(3) characters 内容:Helevetia
(4) endElement 元素名:name
(5) startElement 元素名:size
(6) characters 内容:36
(7) endElement 元素名:size
(8) endElement 元素名:font

2.使用StAX解析器

StAX是一种“拉解析器”,我们只需要使用最基本的循环就可以迭代出所有的事件

利用java库中的一些方法就可以实现这些操作,请参阅javaAPI

7.生成XML文档

我们可以使用文档内容来构建一棵DOM树,然后写出树中的所有内容。

  1. 不带命名空间的文档

首先得到一个空白的文档:

Document doc = builder.newDocment();

使用Document类的createElement方法构建文档元素:

Element rootElement = doc.createElement(rootName);

还可以使用createTextNode创建文本节点:

Text textNode = doc.createTextNode(text);

以及其他的一些操作。

2.带命名空间的文档

带命名空间文档与没有命名空间文档的生成区别在于:需要将生成器工厂设置成命名空间敏感的,然后再创建生成器。

生成节点的方法是createElementNS来创建所有的节点

创建完成后,我们就可以写出文档了。

本文参考:

    JAVA核心技术卷2:xml

感谢您的阅读,欢迎指正博客中存在的问题,也可以跟我联系,一起进步,一起交流!

微信公众号:进击的程序狗

邮箱:roobtyan@outlook.com

个人博客:https://roobtyan.github.io

XML技术详解的更多相关文章

  1. 手游录屏直播技术详解 | 直播 SDK 性能优化实践

    在上期<直播推流端弱网优化策略 >中,我们介绍了直播推流端是如何优化的.本期,将介绍手游直播中录屏的实现方式. 直播经过一年左右的快速发展,衍生出越来越丰富的业务形式,也覆盖越来越广的应用 ...

  2. Comet技术详解:基于HTTP长连接的Web端实时通信技术

    前言 一般来说,Web端即时通讯技术因受限于浏览器的设计限制,一直以来实现起来并不容易,主流的Web端即时通讯方案大致有4种:传统Ajax短轮询.Comet技术.WebSocket技术.SSE(Ser ...

  3. SSE技术详解:一种全新的HTML5服务器推送事件技术

    前言 一般来说,Web端即时通讯技术因受限于浏览器的设计限制,一直以来实现起来并不容易,主流的Web端即时通讯方案大致有4种:传统Ajax短轮询.Comet技术.WebSocket技术.SSE(Ser ...

  4. Protocol Buffer技术详解(语言规范)

    Protocol Buffer技术详解(语言规范) 该系列Blog的内容主体主要源自于Protocol Buffer的官方文档,而代码示例则抽取于当前正在开发的一个公司内部项目的Demo.这样做的目的 ...

  5. CDN学习笔记二(技术详解)

    一本好的入门书是带你进入陌生领域的明灯,<CDN技术详解>绝对是带你进入CDN行业的那盏最亮的明灯.因此,虽然只是纯粹的重点抄录,我也要把<CDN技术详解>的精华放上网.公诸同 ...

  6. CDN技术详解及实现原理

    CDN技术详解 一本好的入门书是带你进入陌生领域的明灯,<CDN技术详解>绝对是带你进入CDN行业的那盏最亮的明灯.因此,虽然只是纯粹的重点抄录,我也要把<CDN技术详解>的精 ...

  7. Python开发技术详解PDF

    Python开发技术详解(高清版)PDF 百度网盘 链接:https://pan.baidu.com/s/1F5J9mFfHKgwhkC5KuPd0Pw 提取码:xxy3 复制这段内容后打开百度网盘手 ...

  8. XML文件详解以及解析

    转自:https://blog.csdn.net/com_ma/article/details/73277535 一.xml基础详解: 1.概述: xml:即可扩展标记语言,xml是互联网数据传输的重 ...

  9. 《Tomcat与Java Web开发技术详解》思维导图

    越想构建上层建筑,就越觉得底层基础很重要.补课系列. 书是良心书,就是太基础了,正适合补课. [纯文字版] Tomcat与Java Web开发技术详解 Servlet Servlet的生命周期 初始化 ...

随机推荐

  1. 第四篇:Vue的项目开发

    安装Vue的脚手架cli环境 1)官网下载并安装node,附带npm https://nodejs.org/zh-cn/ node环境: 可以解释执行js语言 提供了npm应用商城,可以为node环境 ...

  2. redis常用的命令行以及操作

    redis常用的命令行以及操作 转载酱紫人的理直气壮 最后发布于2018-07-30 17:00:41 阅读数 805  收藏 转载地址:https://blog.csdn.net/li_lening ...

  3. 六十四、SAP中的内表的9种定义方式

    一.内表一共有9种定义方式,如下: 二.执行如下 *&--------------------------------------------------------------------- ...

  4. 吴裕雄--天生自然C++语言学习笔记:C++ 类 & 对象

    C++ 在 C 语言的基础上增加了面向对象编程,C++ 支持面向对象程序设计.类是 C++ 的核心特性,通常被称为用户定义的类型. 类用于指定对象的形式,它包含了数据表示法和用于处理数据的方法.类中的 ...

  5. [BJDCTF2020]ZJCTF,不过如此

    0x00 知识点 本地文件包含伪协议 ?text=php://input //执行 post: I have a dream ?file=php://filter/read/convert.base6 ...

  6. V-Distpicker不能完整显示内容

    V-Distpicker插件在列表中,或者在dialog中只显示了第一次的内容,第二次就开始报错.这个和前篇中的地图问题其实如出一辙. 解决办法,重加载,局部刷新. <el-form-item ...

  7. 远程控制使用kill软件映射内网进行远程控制(9.28 第十四天)

    1.能ping通IP情况下远程控制 设置kill软件中的端口.密码.上线列表 2.在软件的Bin\Plugins目录下找到Consys21.dll复制到/phpstudy/www目录下留作生成软件 3 ...

  8. C++的vector容器清空

    c++内部STL库中自带了一个容器vetcor, 自带了清空方法——clear().但是clear使用之后,并不能清空数据,其数据再未被覆盖之前是不会改变的,个人猜测clear仅仅把指针挪动到了起始位 ...

  9. UVA - 714 Copying Books (抄书)(二分+贪心)

    题意:把一个包含m个正整数的序列划分成k个(1<=k<=m<=500)非空的连续子序列,使得每个正整数恰好属于一个序列(所有的序列不重叠,且每个正整数都要有所属序列).设第i个序列的 ...

  10. int *const 与const int *问题

    自己一直就不太清楚int *const与const int*之间的差别,总是弄混,今天势必拿一个程序验证一下. 一个指针是有两个属性的,一个是它指向的地方,一个是它指向地方上的内容.两者的差别也在此. ...