jsoup和dom4j哪个好用

2024-11-04

java 常用的解析工具

这里介绍两种 java 解析工具. 第一种:java 解析 html 工具 jsoup 第二种: java 解析 XML 工具 Dom4j jsoup jsoup是一个用于处理真实HTML的Java库.它提供了一个非常方便的API,用于提取和操作数据,使用最好的DOM,CSS和类似jquery的方法. 官网:https://jsoup.org/ 下载:https://jsoup.org/packages/jsoup-1.12.1.jar maven: <dependency> <!--

Matcher类的简单使用

今天工作时遇到一个问题, 用正则处理html标签时不知该如何下手.还好有Matcher帮助解决了问题. 需求如下: 例如有如下html文章内容: <p><a href="www.baidu.com">百度的链接</a>; 这是一个百度的链接. <a href="www.jiakaobaodian.com">驾考宝典的链接</a>这是一个驾考宝典的链接</p>; 在我们做文章内链的时候, 往往掺杂

【网络爬虫】【java】微博爬虫（四）：数据处理——jsoup工具解析html、dom4j读写xml

之前提到过,对于简单的网页结构解析,可以直接通过观察法.手工写正则解析,可以做出来,比如网易微博.但是对于结构稍微复杂点的,比如新浪微博,如果还用正则,用眼睛一个个去找,未免太麻烦了. 本文介绍两个工具包:解析html, xml的jsoup,和读写xml的dom4j. 工具包jsoup是解析html.xml的利器,利用jsoup可以快速读取html等规范文档格式的节点数据,比正则解析省事多了,而且自己写正则容易考虑不周导致潜在bug,也很容易出错. 同时我们提取出来的微博数据直接存在txt文档里

利用jsoup进行模拟登录

因为工作的原因,近段时间开始接触jsoup.大概也弄清了用java来爬网页是怎样一个过程.特此,写篇日志以便他日方便查看. Jsoup是一个java平台的能够对xml文档结构的文档进行解析.有点类似于dom4j吧.但是dom4j是利用流进行内容解析,遇到“<>”的标记进行节点与否的区分.而jsoup之前看了篇文章介绍,存储的方式更接近于java对象的方式.(我个人的看法吧,也不清楚是否准确,望指点!). 模拟登录的过程也是很简单的.只需要通过网页工具查看目标网站需要提交到的登录地址,再捕获下提

使用 dom4j 处理 xml （1）

解决问题需要,自己简单学习了一下dom4j 的基本用法: (1)读取 xml 文件: (2)修改 xml 文件. 需要的 jar 包: dom4j-xxx.jar (可以在 https://dom4j.github.io/ 下载)(不含 jaxen-xxx.jar) jaxen-xxx.jar (这个 jar 在 jdom 的下载(http://www.jdom.org/downloads/index.html)压缩文件中有)(如果用到 xpath,就必须引入此包,否则报 ClassNotFou

java三方---->dom4j解析xml数据

Dom4j是一个易用的.开源的库,用于XML,XPath和XSLT.它应用于Java平台,采用了Java集合框架并完全支持DOM,SAX和JAXP.今天我们就开始Dom4j的学习. Dom4j的使用 dom4j的使用项目结构如下:

XML解析之Jsoup

操作xml文件解析(读取):将文档中的数据解读到内存中写入:将内存中的数据保存到XML文档中.持久化的存储解析xml的方式 DOM:将标记语言文档一次性加载进内存,在内存中形成一颗dom树优点: 操作方便,可以对文档进行CRUD(增删改查)的所有操作缺点: 占内存 SAX:逐行读取,基于事件驱动优点不占内存缺点只能读取常用的解析器: JAXP:sum公司提供的解析器,支持dom和sax两种思想 DOM4J:优秀的解析器 Jsoup:一款Java 的HTML解析器,可直接解析某

Schema约束， dom4j解析

Schema是新的XML文档约束:Schema要比DTD强大很多,是DTD替代者;Schema本身也是XML文档,但Schema文档的扩展名为xsd,而不是xml .Schema功能更强大,数据类型更完善:Schema支持名称空间与DTD一样,要求可以通过schema约束文档编写xml文档.常见框架使用schema的有:Spring等通过提供”web-app_ 2_ 5.xsd"编写xml文档 web-app_ 2_ 5.xsd <?xml version="1.0"

XML技术之DOM4J解析器

由于DOM技术的解析,存在很多缺陷,比如内存溢出,解析速度慢等问题,所以就出现了DOM4J解析技术,DOM4J技术的出现大大改进了DOM解析技术的缺陷. 使用DOM4J技术解析XML文件的步骤? public static void dom4jXml()throws Exception{ //第一步:获得一个解析器 SAXReader saxreader = new SAXReader(); //第二步:指定解析的XML文件

四种解析和创建方式（DOM，SAX，DOM4J，JDOM）

一.先导入jar包 DOM基于树形,SAX基于事件,DOM4J和JDOM基于底层API 二.代码如下 1 package com.sxt.test; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStr

Jsoup问题---获取http协议请求失败 org.jsoup.UnsupportedMimeTypeException: Unhandled content type. Must be text/*, application/xml, or application/xhtml+xml.

Jsoup问题---获取http协议请求失败 1.问题:用Jsoup在获取一些网站的数据时,起初获取很顺利,但是在访问某浪的数据是Jsoup报错,应该是请求头里面的请求类型(ContextType)不符合要求. 错误信息: Exception in thread "main" org.jsoup.UnsupportedMimeTypeException: Unhandled content type. Must be text/*, application/xml, or applic

Jsoup系列学习(2)-解析html文件

解析html文件 1.当我们通过发送http请求时,有时候返回结果是一个html格式字符串,你需要从一个网站获取和解析一个HTML文档,并查找其中的相关数据.你可以使用下面解决方法: 使用 Jsoup.connect(String url)方法: //发送请求 Document doc = Jsoup.connect("https://www.baidu.com/").get(); //获取id号为kw的控件 Element content = doc.getElementById(&

Jsoup系列学习(1)-发送get或post请求

简介 jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址.HTML文本内容.它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据. 官网:http://www.open-open.com/jsoup/parsing-a-document.htm 1.jsoup的主要功能如下: 1. 从一个URL,文件或字符串中解析HTML: 2. 使用DOM或CSS选择器来查找.取出数据: 3. 可操作HTML元素.属性.文本: jsoup是基于

dom4j的小例子

1.要解析的xml文件book.xml <?xml version="1.0" encoding="UTF-8"?> <books> <book id="book1"> <title>JAVA编程思想</title> <price>80.00</price> </book> <book id="book2"> <t

Dom4J解析技术

前面的话本文主要讲解有关Dom4j技术和xpath配合下的优化! 目录: 为什么需要Dom4J DOM4J怎么用 xpath怎么配合DOM4J 一为什么需要Dom4J 一门技术出现必定是有原因的,一来是解决某方面技术问题,再者可能是优化性能. xmlDom 简单方便,可以将xml文档以"DOM树"的形式装进内存,节点对象操作元素.但xml数据量较大时,消耗内存也大.sax访问元素方便,不能对元素crud.都是有明显缺点的. Dom4j的出现,正好优化了xm

Dom4j解析xml文件

dom4j是一个Java的XML API,类似于jdom,用来读取的XML文件,由于它是将文件解析完存放在内存当中的,所以不适合解析大的XML文件,但就方便性和性能方面,一定程度要优于JDK中Domcument和SAX解析的.下面我就用dom4j来对xml文件进行遍历,感兴趣的同学可以看一下,注释很详细被解析的XML文件studentInfo.xml <?xml version="1.0" encoding="UTF-8"?> <school&g

java dom4j封装和解析XML

package org.scbit.lsbi.scp.utils; import java.util.ArrayList; import java.util.List; import org.dom4j.Document; import org.dom4j.DocumentException; import org.dom4j.DocumentHelper; import org.dom4j.Element; import org.scbit.lsbi.scp.utils.enums.Templ

xml之dom4j解析

* 使用dom4j解析xml 实例在java520里面 TextDom4j * dom4j,是一个组织,针对xml解析,提供解析器dom4j * dom4j不是javase的一部分,想要使用第一步需要怎么做 - 导入dom4j提供jar包 - 常见一个文件夹lib - 复制jar包到lib下面 - 邮件点击jar包.builb path -- add to bulildpath - 看到jar包变成奶瓶装表示导入成功 * 得到document使用 * SAXReader reader = ne

使用 jsoup 对 HTML 文档进行解析和操作

jsoup 简介 Java 程序在解析 HTML 文档时,相信大家都接触过 htmlparser 这个开源项目,我曾经在 IBM DW 上发表过两篇关于 htmlparser 的文章,分别是:从 HTML 中攫取你所需的信息和扩展 HTMLParser 对自定义标签的处理能力.但现在我已经不再使用 htmlparser 了,原因是 htmlparser 很少更新,但最重要的是有了 jsoup . jsoup 是一款 Java 的 HTML 解析器,可直接解析某个 URL 地址.HTML 文本内

使用dom4j读取xml连接数据库与之单例模式

使用dom4j读取xml ,加入jar包 dom4j-1.6.1.jar jaxen-1.1-beta-6.jar public class XmlConfigReader { //懒汉式,延迟加载 private static XmlConfigReader instance=null; private JdbcConfig jdbcConfig; private XmlConfigReader(){ SAXReader reader=new SAXReader(); //获取当前线程的输入流

jsoup获取图片示例

import java.io.File; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; import java.io.OutputStream; import java.net.MalformedURLException; import java.net.URL; import java.net.URLConnection; import org.jsoup.Con

jsoup和dom4j哪个好用

热门专题