Jsoup解析Xml{详解}

1: 概述

* 代码：

//2.1获取student.xml的path

String path = JsoupDemo1.class.getClassLoader().getResource("student.xml").getPath();

//2.2解析xml文档，加载文档进内存，获取dom树--->Document

Document document = Jsoup.parse(new File(path), "utf-8");

//3.获取元素对象 Element

Elements elements = document.getElementsByTag("name");

System.out.println(elements.size());

//3.1获取第一个name的Element对象

Element element = elements.get(0);

//3.2获取数据

String name = element.text();

System.out.println(name);

* 对象的使用：
1. Jsoup：工具类，可以解析html或xml文档，返回Document

* parse：解析html或xml文档，返回Document
* parse(File in, String charsetName)：解析xml或html文件的。
* parse(String html)：解析xml或html字符串
* parse(URL url, int timeoutMillis)：通过网络路径获取指定的html或xml的文档对象

2. Document：文档对象。代表内存中的dom树
* 获取Element对象

* getElementById(String id)：根据id属性值获取唯一的element对象
* getElementsByTag(String tagName)：根据标签名称获取元素对象集合
* getElementsByAttribute(String key)：根据属性名称获取元素对象集合
* getElementsByAttributeValue(String key, String value)：根据对应的属性名和属性值获取元素对象集合
3. Elements：元素Element对象的集合。可以当做 ArrayList<Element>来使用

4. Element：元素对象
1. 获取子元素对象

* getElementById(String id)：根据id属性值获取唯一的element对象
* getElementsByTag(String tagName)：根据标签名称获取元素对象集合
* getElementsByAttribute(String key)：根据属性名称获取元素对象集合
* getElementsByAttributeValue(String key, String value)：根据对应的属性名和属性值获取元素对象集合

2. 获取属性值

* String attr(String key)：根据属性名称获取属性值

3. 获取文本内容

* String text():获取文本内容
* String html():获取标签体的所有内容(包括字标签的字符串内容)

所用到的数据:

<?xml version="1.0" encoding="UTF-8"?>

<users>

    <user id='1'>

        <name>zhangsan</name>

        <age>23</age>

        <gender>male</gender>

        <address>环湖中路36</address>

    </user>

    <user id='2'>

        <name>lisi</name>

        <age>24</age>

        <gender>female</gender>

    </user>

</users>

层次关系:

1:Document 是一个xml文件的dom树,表示一个xml文件

2:Elements 表示多个元素(ELEMENT)的集合 findElementXXX() selectot() SetN() 系列API 返回的都是一个集合

3:Element 表示一个元素,xml理解为一个闭合的标签

2: 应用场景

　　2.1 有类封装的强制性解析 , 1: 类只需要三个属性, 但是xml属性多了所以不能获取跟节点直接使用text()进行解析, 2: 按照常规遍历的方式进行解析

public class ParseFromStudent {

    public static void main(String[] args) throws IOException {

        String path = "E:\\GItHubRepository\\Lear-Java\\java-growing\\src\\main\\java\\xml_jsoup\\Student.xml";

        Document dom = Jsoup.parse(new File(path), "UTF-8");

        class Student {

            String name;

            int age;

            String gender;

            public Student(String name, int age, String gender) {

                super();

                this.name = name;

                this.age = age;

                this.gender = gender;

            }

            @Override

            public String toString() {

                return "Student [name=" + name + ", age=" + age + ", gender=" + gender + "]";

            }

        }

        Elements element = dom.getElementsByTag("user");

        ArrayList<Student> slist = new ArrayList<>();

        // element.forEach(v->System.out.println(v));

        Iterator<Element> it = element.iterator();

        while (it.hasNext()) {

            Element next = it.next();

            Elements childrens = next.children();

            Iterator<Element> it_child = childrens.iterator();

            String name = null;

            int age = 0;

            String gender = null;

            while (it_child.hasNext()) {

                Element child_node = it_child.next();

                switch (child_node.nodeName()) {

                case "name":

                    name=child_node.text();

                    break;

                case "age":

                    age=Integer.parseInt(child_node.text());

                    break;

                case "gender":

                    gender=child_node.text();

                    break;

                }

            }

            slist.add(new Student(name, age, gender));

        }

        System.out.println(slist);

    }

}

　有限制的用法:

public class ParseFromStudent2 {

    public static void main(String[] args) throws IOException {

        String path = "E:\\GItHubRepository\\Lear-Java\\java-growing\\src\\main\\java\\xml_jsoup\\Student.xml";

        Document dom = Jsoup.parse(new File(path), "UTF-8");

        class Student {

            String name;

            int age;

            String gender;

            public Student(String name, int age, String gender) {

                super();

                this.name = name;

                this.age = age;

                this.gender = gender;

            }

            @Override

            public String toString() {

                return "Student [name=" + name + ", age=" + age + ", gender=" + gender + "]";

            }

        }

        ArrayList<Student> list = new ArrayList<>();

        Elements element = dom.getElementsByTag("user");

        Iterator<Element> it = element.iterator();

        Student stu=null;

        /**

         * 1: 这里是有局限性的 如果我们要的数据 中间穿插几个不需要的数据,或者xml文档以后变化 了 那么我们还得需要改代码

         * 2: 最好的方式就行是使用匹配的方式, 无论 xml源文件 怎么发生变化, 最初的解析版本还是能够使用的

         */

        while(it.hasNext()) {

            Element next = it.next();

            String[] split = next.text().split(" ");

            stu=new Student(split[0], Integer.parseInt(split[1]), split[2]);

            list.add(stu);

        }

        System.out.println(list);

    }

}

最好的方式:前面提到的问题,都解决了

public class ParseFromStudent3 {

    public static void main(String[] args) throws IOException {

        String path = "E:\\GItHubRepository\\Lear-Java\\java-growing\\src\\main\\java\\xml_jsoup\\Student.xml";

        Document dom = Jsoup.parse(new File(path), "UTF-8");

        class Student {

            String name;

            int age;

            String gender;

            public Student(String name, int age, String gender) {

                super();

                this.name = name;

                this.age = age;

                this.gender = gender;

            }

            @Override

            public String toString() {

                return "Student [name=" + name + ", age=" + age + ", gender=" + gender + "]";

            }

        }

        ArrayList<Student> list = new ArrayList<>();

        Elements element = dom.getElementsByTag("user");

        Iterator<Element> it = element.iterator();

        Student stu=null;

        /**

         *  使用selector 语法

         */

        while(it.hasNext()) {

            Element next = it.next();

            Elements name = next.select("name");

            Elements age = next.select("age");

            Elements gender = next.select("gender");

            stu=new Student(name.text(), Integer.parseInt(age.text()), gender.text());

            list.add(stu);

        }

         System.out.println(list);

         BigInteger bigi = new BigInteger("1");

         for(int i=1;i<=100;i++){

              bigi=bigi.multiply(new BigInteger(i+""));

         }

         System.out.println(bigi);

    }

}

3: Xpath 应用

2. XPath：XPath即为XML路径语言，它是一种用来确定XML（标准通用标记语言的子集）文档中某部分位置的语言

            * 使用Jsoup的Xpath需要额外导入jar包。

            * 查询w3cshool参考手册，使用xpath的语法完成查询

            * 代码：

                //1.获取student.xml的path

                String path = JsoupDemo6.class.getClassLoader().getResource("student.xml").getPath();

                //2.获取Document对象

                Document document = Jsoup.parse(new File(path), "utf-8");

                //3.根据document对象，创建JXDocument对象

                JXDocument jxDocument = new JXDocument(document);

                //4.结合xpath语法查询

                //4.1查询所有student标签

                List<JXNode> jxNodes = jxDocument.selN("//student");

                for (JXNode jxNode : jxNodes) {

                    System.out.println(jxNode);

                }

                System.out.println("--------------------");

                //4.2查询所有student标签下的name标签

                List<JXNode> jxNodes2 = jxDocument.selN("//student/name");

                for (JXNode jxNode : jxNodes2) {

                    System.out.println(jxNode);

                }

                System.out.println("--------------------");

                //4.3查询student标签下带有id属性的name标签

                List<JXNode> jxNodes3 = jxDocument.selN("//student/name[@id]");

                for (JXNode jxNode : jxNodes3) {

                    System.out.println(jxNode);

                }

                System.out.println("--------------------");

                //4.4查询student标签下带有id属性的name标签 并且id属性值为itcast

                List<JXNode> jxNodes4 = jxDocument.selN("//student/name[@id='itcast']");

                for (JXNode jxNode : jxNodes4) {

                    System.out.println(jxNode);

                }

Jsoup解析Xml{详解}的更多相关文章

C#解析XML详解（XPath以及带命名空间NameSpace）
<?xml version="1.0" encoding="utf-8" ?> <bookstore> <book> < ...
17.JAVA-Dom、Sax解析XML详解
在JAVA中,解析有三种方式: Dom解析(支持改删,耗内存). Sax解析(不支持改删,不耗内存). Pull解析(在Android中推荐使用的一种解析XML的方式,在下章学习). 1.支持Dom与 ...
JavaEE实战——XML文档DOM、SAX、STAX解析方式详解
原 JavaEE实战--XML文档DOM.SAX.STAX解析方式详解 2016年06月22日 23:10:35 李春春_ 阅读数:3445 标签: DOMSAXSTAXJAXPXML Pull 更多 ...
Web.xml详解(转)
这篇文章主要是综合网上关于web.xml的一些介绍,希望对大家有所帮助,也欢迎大家一起讨论. ---题记一. Web.xml详解: (一) web.xml加载过程(步骤) 首 ...
Maven-pom.xml详解
(看的比较累,可以直接看最后面有针对整个pom.xml的注解) pom的作用 pom作为项目对象模型.通过xml表示maven项目,使用pom.xml来实现.主要描述了项目:包括配置文件:开发者需要遵 ...
【maven】 pom.xml详解
pom.xml详解 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www ...
Tomcat配置(二)：tomcat配置文件server.xml详解和部署简介
*/ .hljs { display: block; overflow-x: auto; padding: 0.5em; color: #333; background: #f8f8f8; } .hl ...
Tomcat(二)：tomcat配置文件server.xml详解和部署简介
Tomcat系列文章:http://www.cnblogs.com/f-ck-need-u/p/7576137.html 1. 入门示例:虚拟主机提供web服务该示例通过设置虚拟主机来提供web服务 ...
logback的使用和logback.xml详解，在Spring项目中使用log打印日志
logback的使用和logback.xml详解一.logback的介绍 Logback是由log4j创始人设计的另一个开源日志组件,官方网站: http://logback.qos.ch.它当前分 ...

随机推荐

10分钟理解BFC原理
10 分钟理解 BFC 原理一.常见定位方案在讲 BFC 之前,我们先来了解一下常见的定位方案,定位方案是控制元素的布局,有三种常见方案: 普通流 (normal flow) 在普通流中,元素按照 ...
牛客练习赛31A 地、颜色、魔法（搜索+二维数组一维表示）
红色来源于山脉,象征着狂躁.愤怒.混乱,血雨腥风,电光火石. 蓝色来源于海岛,象征着控制.幻觉.诡计,运筹帷幄,谋定后动. 绿色来源于树林,象征着生命.蛮力.成长,横冲直撞,生生不息. 黑色来源于沼泽 ...
ajax request 等请求的数据直接return
LVM（逻辑卷管理器）部署、扩容、缩小
物理卷 -- Physical Volume -- PV 卷组 -- Volume Group -- VG 逻辑卷 -- Logical Volume -- LV 1.硬盘设备管理技术虽然能够有效 ...
PyTorch-网络的创建，预训练模型的加载
本文是PyTorch使用过程中的的一些总结,有以下内容: 构建网络模型的方法网络层的遍历各层参数的遍历模型的保存与加载从预训练模型为网络参数赋值主要涉及到以下函数的使用 add_module ...
Cortex-A7 MPCore 简介与处理器运行模型
Cortex-A7 MPcore 处理器支持 1~4 核,通常是和 Cortex-A15 组成 big.LITTLE 架构的,Cortex-A15 作为大核负责高性能运算,比如玩游戏啥的,Cortex ...
js的动态表格的增删改查思路
1. 首先我们要知道,动态添加,肯定不是在页面上写死得,而是通过js调用循环放入到页面上的,我们在写动态表格的时候不要先着急写,我们第一步要做的就是构思,要把自己的逻辑先弄清楚,不然的话,前面是好写 ...
C语言程序设计100例之（25）：确定进制
例25 确定进制问题描述 6*9 = 42 对于十进制来说是错误的,但是对于13进制来说是正确的.即 6(13)* 9(13)= 42(13),因为,在十三进制中,42 = 4 * 13 + ...
IPFS学习-分布式哈希表DHT
Distributed Hash Tables(DHT) 分布式哈希表是一个分布式的键值对存储结构.在IPFS网络中,每一个节点都维护一个DHT的子集.当节点接受到一个请求.该节点要么直接回复,要么通 ...
使用 ASP.NET Core MVC 创建 Web API——响应数据的内容协商（七）
使用 ASP.NET Core MVC 创建 Web API 使用 ASP.NET Core MVC 创建 Web API(一) 使用 ASP.NET Core MVC 创建 Web API(二) 使 ...