java三方---->html解析jsoup的使用
jsoup 是一款 Java 的HTML 解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于JQuery的操作方法来取出和操作数据。今天我们就开始jsoup的学习。
jsoup解析html
jsoup的主要功能如下:
从一个URL,文件或字符串中解析HTML;
使用DOM或CSS选择器来查找、取出数据;
可操作HTML元素、属性、文本;
jsoup测试项目的结构如下,首先要下载jsoup的jar包:https://jsoup.org/download
aaarticlea/png;base64," alt="" />
一、 JsoupTest中我们从网址、文件和字符串中解析html。
package com.huhx.jsoup; import java.io.File;
import java.io.IOException; import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements; public class JsoupTest {
static String html = "<html><head><title>First parse</title></head>"
+ "<body><p id='parseHtml'><font>Parsed HTML into a doc.</font></p></body></html>"; static String fileName = "file/jsoup.html";
static String url = "http://www.baidu.com"; // 从url中解析
public static void readFromUrl(String url) {
try {
Document document = Jsoup.connect(url).get();
System.out.println(document.title());
} catch (IOException e) {
e.printStackTrace();
}
} // 从文件中解析
public static void readFromFile(String file) {
File input = new File(file);
try {
Document document = Jsoup.parse(input, "UTF-8", "");
System.out.println(document.getElementsByTag("p").text()); // 通过tag名得到元素
System.out.println(document.getElementById("divid").text()); // 通过id
System.out.println(document.getElementsByClass("divclass").attr("id")); // 通过class
System.out.println(document.getElementsByAttribute("href").attr("id")); // 通过属性 } catch (IOException e) {
e.printStackTrace();
}
} // 从字符串中解析
public static void readFromString(String string) {
Document document = Jsoup.parse(string);
Elements element = document.getElementsByTag("p");
System.out.println(element.text());
System.out.println(element.html());
System.out.println(element.attr("id"));
} public static void main(String[] args) {
readFromString(html);
System.out.println("------------------------------------------------------------");
readFromFile(fileName);
System.out.println("------------------------------------------------------------");
readFromUrl(url);
}
}
二、 jsoup.html的内容如下:
<!doctype html>
<html lang="en">
<head>
<title>Document</title>
</head>
<body>
<p>
<font>Hello World.</font>
</p>
<div id="divid">huhx div id</div>
<div class="divclass" id="divclassid">huhx div class</div>
<a href="http://huhx.com" id="huhx">Hello huhx</a>
</body>
</html>
三、运行结果如下:
Parsed HTML into a doc.
<font>Parsed HTML into a doc.</font>
parseHtml
------------------------------------------------------------
Hello World.
huhx div id
divclassid
huhx
------------------------------------------------------------
百度一下,你就知道
友情链接
- 更多jsoup的了解: https://jsoup.org/cookbook/introduction/parsing-a-document
- 博客地址: http://www.cnblogs.com/huhx/p/javaThirdJsoup.html
java三方---->html解析jsoup的使用的更多相关文章
- java三方---->dom4j解析xml数据
Dom4j是一个易用的.开源的库,用于XML,XPath和XSLT.它应用于Java平台,采用了Java集合框架并完全支持DOM,SAX和JAXP.今天我们就开始Dom4j的学习. Dom4j的使用 ...
- jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址
jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址.HTML文本内容.它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据.
- 【java爬虫】---爬虫+jsoup轻松爬博客
爬虫+jsoup轻松爬博客 最近的开发任务主要是爬虫爬新闻信息,这里主要用到技术就是jsoup,jsoup 是一款 Java的HTML解析器,可直接解析某个URL地址.HTML文本内容.它提供了一套非 ...
- java爬虫入门--用jsoup爬取汽车之家的新闻
概述 使用jsoup来进行网页数据爬取.jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址.HTML文本内容.它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuer ...
- Java下HttpUnit和Jsoup的Http抓取
简单记录下:搜集信息-分析问题-解决问题 关于html文档的操作现成库有: HttpUnit 很老了,不更了 http://www.httpunit.org/ 20 May 2008 HttpUni ...
- java jar包解析:打包文件,引入文件
java jar包解析:打包文件,引入文件 cmd下: jar命令:package包打包 javac命令:普通类文件打包 Hello.java: package org.lxh.demo; publi ...
- Java构造和解析Json数据的两种方法详解二
在www.json.org上公布了很多JAVA下的json构造和解析工具,其中org.json和json-lib比较简单,两者使用上差不多但还是有些区别.下面接着介绍用org.json构造和解析Jso ...
- java集合框架之java HashMap代码解析
java集合框架之java HashMap代码解析 文章Java集合框架综述后,具体集合类的代码,首先以既熟悉又陌生的HashMap开始. 源自http://www.codeceo.com/arti ...
- Java注解全面解析(转)
1.基本语法 注解定义看起来很像接口的定义.事实上,与其他任何接口一样,注解也将会编译成class文件. @Target(ElementType.Method) @Retention(Retentio ...
随机推荐
- JAVA里使用CKEditor和CKFinder的配置
在JSP里使用CKEditor和CKFinder的配置 CKEditor的编辑器工具栏中有一项“图片域”,该工具可以贴上图片地址来在文本编辑器中加入图片,但是没有图片上传. “预览”中有一大堆鸟语,看 ...
- 六步破解win2008R2登录密码
防火墙没有开启,win2008R被当成矿机,只好重新破解密码进去解决问题,试了好多方法,下列方法绝对实用简单. 破解2008登录密码的方法: 1.进入PE2.找到文件:windows\system32 ...
- Win7/Win8下双击执行jar程序的方法
问题 老妈喜欢看小说,又不会下载,于是用Java写了个自己主动下载小说的小程序 我用的Swing UI.直接生成了.jar文件,双击就可以执行 非常诡异的是.用Eclipse直接run能够执行,可是E ...
- MongoDB(四):MongoDB连接和创建数据库
在连接MongoDB前确保启动MongoDB服务,只需要在MongoDB安装目录的bin目录下执行mongo.exe即可. 执行启动操作后,mongodb在输出一些必要信息后不会输出任何信息,之后就等 ...
- JavaScript(二):JavaScript语法及数据类型
一.JavaScript语法 1.区分大小写ECMAScript中的一切,包括变量.函数名和操作符都是区分大小写的.例如:text和Text表示两种不同的变量.2.标识符所谓标识符,就是指变量.函数. ...
- java-基于JavaMail的Java邮件发送
1.基于JavaMail的Java邮件发送:简单邮件发送 2.基于JavaMail的Java邮件发送:复杂邮件发送
- 联合主键用hibernate注解映射方式主要有三种:
将联合主键的字段单独放在一个类中,该类需要实现java.io.Serializable接口并重写equals和hascode 第一.将该类注解为@Embeddable,最后在主类中(该类不包含联合主键 ...
- github 远程仓库操作
工作中需要在github上保存项目,一个仓库中有多个分支,进行一些实验,方便后面操作. 参考链接 http://rogerdudler.github.io/git-guide/index.zh.htm ...
- mysql_query error:Commands out of sync;you can't run this command now
MYSQL_REST *result没有释放, 用mysql_free_result(result)即可.
- 查看CentOS系统配置情况命令
系统 # uname -a # 查看内核/操作系统/CPU信息 # head -n 1 /etc/issue # 查看操作系统版本 # cat /proc/cpuinfo # 查看CPU信息 # ho ...