1，查看页面源代码，使用css或者JQuery选择器方式或元素节点选择

例如：

或者写成：Elements elements1 = Jsoup.connect("http://jb.999ask.com/jibing/ks/neike").get().select("ul.jbList li a");

文档的对象模型：

文档由多个Elements和TextNodes组成 (以及其它辅助nodes：详细可查看：nodes package tree).
其继承结构如下：Document继承Element继承Node. TextNode继承 Node.
一个Element包含一个子节点集合，并拥有一个父Element。他们还提供了一个唯一的子元素过滤列表。

2，利用Jsoup.Parse();解析文档

parse(String html, String baseUri) 这方法能够将输入的HTML解析为一个新的文档 (Document），参数 baseUri 是用来将相对 URL 转成绝对URL，并指定从哪个网站获取文档。如这个方法不适用，你可以使用 parse(String html) 方法来解析成HTML字符串如上面的示例。

parseBodyFragment 方法创建一个空壳的文档，并插入解析过的HTML到body元素中。假如你使用正常的 Jsoup.parse(String html) 方法，通常你也可以得到相同的结果，但是明确将用户输入作为 body片段处理，以确保用户所提供的任何糟糕的HTML都将被解析成body元素。

Document doc = Jsoup.parseBodyFragment(html);

Element body = doc.body();

Document.body() 方法能够取得文档body元素的所有子元素，与 doc.getElementsByTag("body")相同。

3.解析本地的HTML文件

可以使用静态 Jsoup.parse(File in, String charsetName, String baseUri) 方法： File 编码

baseUri 参数用于解决文件中URLs是相对路径的问题。如果不需要可以传入一个空的字符串。

File input = new File("/tmp/input.html");创建一个File对象

Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/");

4.使用DOM遍历一个文档

Elements links = content.getElementsByTag("a");

for (Element link : links) {

  String linkHref = link.attr("href");

  String linkText = link.text();

* getElementById(String id)
* getElementsByTag(String tag)
* getElementsByClass(String className)

attr(String key)获取属性
attr(String key, String value)设置属性
attributes()获取所有属性

5.设置一个元素的HTML内容

可以使用Element中的HTML设置方法具体如下：

Element div = doc.select("div").first(); // <div></div>

div.html("<p>lorem ipsum</p>"); // <div><p>lorem ipsum</p></div>

div.prepend("<p>First</p>");//在div前添加html内容

div.append("<p>Last</p>");//在div之后添加html内容

// 添完后的结果: <div><p>First</p><p>lorem ipsum</p><p>Last</p></div>

Element.html(String html) 这个方法将先清除元素中的HTML内容，然后用传入的HTML代替。
Element.prepend(String first) 和 Element.append(String last) 方法用于在分别在元素内部HTML的前面和后面添加HTML内容
Element.wrap(String around) 对元素包裹一个外部HTML内容。

6.设置元素的文本内容

可以使用Element的设置方法：:

Element div = doc.select("div").first(); // <div></div>

div.text("five > four"); // <div>five &gt; four</div>

div.prepend("First ");

div.append(" Last");

// now: <div>First five &gt; four Last</div>

Element.text(String text) 将清除一个元素中的内部HTML内容，然后提供的文本进行代替
Element.prepend(String first) 和 Element.append(String last) 将分别在元素的内部html前后添加文本节点。

对于传入的文本如果含有像 <, > 等这样的字符，将以文本处理，而非HTML。

使用Jsoup实现java爬虫（非原创）的更多相关文章

Java爬虫利器HTML解析工具-Jsoup
Jsoup简介 Java爬虫解析HTML文档的工具有:htmlparser, Jsoup.本文将会详细介绍Jsoup的使用方法,10分钟搞定Java爬虫HTML解析. Jsoup可以直接解析某个URL ...
Java爬虫框架 | 爬小说
Jsoup,Java爬虫解决方案,中文文档:jsoup 不得不说Java的生态真的好,原来我以为爬虫是只能用Pyhton来写的,结果发现Java的爬虫框架不要太多…… 一分钟你就可以写 ...
java爬虫中jsoup的使用
jsoup可以用来解析HTML的内容,其功能非常强大,它可以向javascript那样直接从网页中提取有用的信息例如1: 从html字符串中解析数据 //直接从字符串中获取 public stati ...
java爬虫框架jsoup
1.java爬虫框架的api jsoup:https://www.open-open.com/jsoup/
Java 表达式解析（非原创）
因项目需要,在网上找来一套表达式解析方法,由于原来的方法太过于零散,不利于移植,现在整理在同一文件内: 文件中包含5个内部类,源码如下: import java.util.ArrayList; imp ...
Java爬虫系列三：使用Jsoup解析HTML
在上一篇随笔<Java爬虫系列二:使用HttpClient抓取页面HTML>中介绍了怎么使用HttpClient进行爬虫的第一步--抓取页面html,今天接着来看下爬虫的第二步--解析抓取 ...
Java Interface 是常量存放的最佳地点吗？（转帖学习，非原创）
Java Interface 是常量存放的最佳地点吗?(转帖学习,非原创) 由于java interface中声明的字段在编译时会自动加上static final的修饰符,即声明为常量.因而inter ...
初识Java爬虫之Jsoup，提供参考代码
本文主要分享的是关于Java爬虫技术其中一个方式 ==> Jsoup 1.Jsoup简介推开技术大门,爬虫技术琳琅满目,而今天要分享的Jsoup是一款Java的HTML解析神器,,可直接 ...
java爬虫--jsoup简单的表单抓取案例
分析需求: 某农产品网站的农产品价格抓取网站链接:点击打开链接页面展示如上: 标签展示如上: 分析发现每日价格行情包括了蔬菜,水果,肉等所有的信息,所以直接抓每日行情的内容就可以实现抓取全部数据. ...

随机推荐

Windows Server 2016 配置 IIS 的详细步骤
Ø 简介本文主要记录 Windows Server 2016 环境下,安装配置 IIS 的详细步骤.需要说明的是,在选择"功能"或"角色服务"时不建议将所有 ...
Turtle库的学习积累
1.什么是turtle库 Python的Turtle库是一个直观有趣的图形绘制函数库,Turtle英文翻译过来是乌龟的意思,在绘图时可以想象成一只乌龟在移动. 2.绘图坐标体系海龟的移动方向 3.绘 ...
初识正则表达式matcher.group
matcher.group中group是匹配()的,group(0)指的是整个串,group(1) 指的是第一个括号里的内容,group(2)指的第二个括号里的内容,以此类推. 例如: str = & ...
从tom大叔那想着拿书的，呵呵。
//var tgtttime = new Date("2014/05/26 09:59:30"); var tgtttime = new Date("2014/05/26 ...
记录一个使用HttpClient过程中的一个bug
最近用HttpClient进行链接请求,开了多线程之后发现经常有线程hang住,查看线程dump java.lang.Thread.State: RUNNABLE at java.net.Socket ...
CVE-2018-19386：SolarWinds数据库性能分析器中反射的XSS
漏洞在SolarWinds的11.1.457版中,"idcStateError.iwc"错误页面中存在Reflected Cross-Site Scripting漏洞,已经在版本 ...
WOW.js – 让页面滚动更有趣
官网:http://mynameismatthieu.com/WOW/ 建议去官网一看下载地址:https://github.com/matthieua/WOW 浏览器兼容 IE10+ Chrom ...
JAVA第三次实训作业
---恢复内容开始--- 1. 编写“学生”类及其测试类. “学生”类: 类名:Student 属性:姓名.性别.年龄.学号.5门课程的成绩方法1:在控制台输出各个属性的值. 方法2:计算平均成绩 ...
openpyxl使用sheet.rows或sheet.columns报TypeError: 'generator' object is not subscriptable解决方式
解决方案: 因为新版本的openpyxl使用rows或者columns返回一个生成器所以可以使用List来解决报错问题 >>> sheet.columns[0] Traceback ...
服务器端 less的安装
一. 安装 npm apt-get install npm 二. 安装less 在服务器端安装 LESS 的最简单方式就是通过 npm(node 的包管理器), 像这样: $ npm install ...

使用Jsoup实现java爬虫（非原创）

5.设置一个元素的HTML内容

使用Jsoup实现java爬虫（非原创）的更多相关文章

随机推荐

热门专题