Jsoup使用教程

一、解析和遍历一个HTML文档
1、解析Html及Url链接

 String html = "<html><head><title>First parse</title></head>"

   + "<body><p>Parsed HTML into a doc.</p></body></html>";

 Document doc = Jsoup.parse(html);//解析html文档

 Document doc = Jsoup.connect("http://example.com/").get();//解析Url链接地址

 String title = doc.title();

2、解析body片段

 String html = "<div><p>Lorem ipsum.</p>";

 Document doc = Jsoup.parseBodyFragment(html);

 Element body = doc.body();

parseBodyFragment 方法创建一个空壳的文档，并插入解析过的HTML到body元素中。假如你使用正常的 Jsoup.parse(String html) 方法，通常你也可以得到相同的结果，但是明确将用户输入作为 body片段处理，以确保用户所提供的任何糟糕的HTML都将被解析成body元素。
Document.body() 方法能够取得文档body元素的所有子元素，与 doc.getElementsByTag("body")相同

3、使用Dom获取元素

查找元素

4、从元素抽取属性，文本和HTML

 String html = "<p>An <a href='http://example.com/'><b>example</b></a> link.</p>";

 Document doc = Jsoup.parse(html);//解析HTML字符串返回一个Document实现

 Element link = doc.select("a").first();//查找第一个a元素

 String text = doc.body().text(); // "An example link"//取得字符串中的文本

 String linkHref = link.attr("href"); // "http://example.com/"//取得链接地址

 String linkText = link.text(); // "example""//取得链接地址中的文本

 String linkOuterH = link.outerHtml();

     // "<a href="http://example.com"><b>example</b></a>"

 String linkInnerH = link.html(); // "<b>example</b>"//取得链接内的html内容

二、与百度链接在一起

如何设置百度搜索结果显示更多条数
【必备参数】:

　　wd——查询的关键词(Keyword)

　　pn——显示结果的页数(Page Number)

　　cl——搜索类型(Class),cl=3为网页搜索

　　【可选参数】:

　　rn——搜索结果显示条数(Record Number),取值范围在10--100条之间,缺省设置rn=10

Jsoup使用教程的更多相关文章

Jsoup 使用教程：数据抽取
1.使用DOM方法来遍历一个文档问题你有一个HTML文档要从中提取数据,并了解这个HTML文档的结构. 方法将HTML解析成一个Document之后,就可以使用类似于DOM的方法进行操作.示例代 ...
Jsoup 使用教程：输入
使用背景: 使用网络爬虫(或者手动复制),从别的网站上下载下来的内容,都是一堆的html,很多标签.样式等等都可能是你所不需要的,或者想要变成你想要的样式.那么该怎么办呢? 我们知道,每一个网页都 ...
Jsoup教程jsoup开发指南,jsoup中文使用手册,jsoup中文文档
jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址.HTML文本内容.它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据. jsou ...
Jsoup教程,jsoup开发指南,jsoup中文使用手册,jsoup中文文档
jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址.HTML文本内容.它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据. jsou ...
Java上的jQuery？解析HTML利器—Jsoup
也许大家有过在java运行平台上解析html的经历,通常的方式是将HTML以XML的形式进行结点解析,调用java本身的xml解析类库.这样的方式很容易理解并且很方便,但习惯用jQuery的各位是否在 ...
JAVA爬虫 WebCollector
JAVA爬虫 WebCollector 爬虫简介: WebCollector是一个无须配置.便于二次开发的JAVA爬虫框架(内核),它提供精简的的API,只需少量代码即可实现一个功能强大的爬虫. 爬虫 ...
用WebCollector制作一个爬取《知乎》并进行问题精准抽取的爬虫（JAVA）
简单介绍: WebCollector是一个无须配置.便于二次开发的JAVA爬虫框架(内核),它提供精简的的API.仅仅需少量代码就可以实现一个功能强大的爬虫. 怎样将WebCollector导入项目请 ...
[web开发] Vue+Spring Boot 上海大学预约系统开发记录
前端界面使用Quasar将组件都排好,用好css. Quasar 入门 # 确保你在全局安装了vue-cli # Node.js> = 8.9.0是必需的. $ npm install -g ...
C# 从需要登录的网站上抓取数据
[转] C# 从需要登录的网站上抓取数据背景:昨天一个学金融的同学让我帮她从一个网站上抓取数据,然后导出到excel,粗略看了下有1000+条记录,人工统计的话确实不可能.虽说不会,但作为一个学计算 ...

随机推荐

用GeneratedKeyHolder获得新建数据主键值
public User createUser(final User user) { final String sql = "insert into sys_users(username, p ...
【单源最短路模板】 poj 2387
#include <cstdio> #include <iostream> #include <stdlib.h> #include <memory.h> ...
IO流---字符流（FileWriter， FileReader ，BufferedWriter，BufferedReader）
IO Input Output IO流用来处理设备之间的数据传输. java对数据的操作是通过流来实现的. 流按流向分:输入流,输出流是相对内存而言的.把硬盘的数据读取到内存中就是输入 ...
项目总结SpringMVC相关
流程文字概述1.用户发送请求至前端控制器DispatcherServlet2.DispatcherServlet收到请求调用HandlerMapping处理器映射器.3.处理器映射器找到具体的处理器, ...
startActivityForResult与onActivityResult
androidActivity之间的跳转不只是有startActivity(Intent i)的,startActivityForResult(Intent intent, int requestCo ...
OpenCv的Java,C++开发环境配置
1.OpenCV 下载及安装配置 opencv的下载地址:http://opencv.org/downloads.html 最新版本:opencv3.0.0 注意:支持的visual studio20 ...
android--listview设置高度
android:layout_height="25dp"这么设置根本就没有用．我们必须要设置android:minHeight="25dp"这样才行．
magento模板中XML与phtml关系 [四]
layout\catalogserch.xml 中声明的 as="topSearch" 被templ\page\html\header.phtml调用输出 echo $this-& ...
java工程开发之图形化界面之（第五课）
下面我们将: 一)更加完整的解释Graphics类二)使用方法来更清晰的重新编写前面图形小应用程序之一三)介绍一些其他的绘图的方法四)介绍方法init,它是类似于paint但是用于不同用途的另一 ...
elasticsearch 配置说明
elasticsearch的config文件夹里面有两个配置文件:elasticsearch.yml和logging.yml,第一个是es的基本配置文件,第二个是日志配置文件,es也是使用log4j ...

Jsoup使用教程

查找元素

如何设置百度搜索结果显示更多条数【必备参数】:

Jsoup使用教程的更多相关文章

随机推荐

热门专题

如何设置百度搜索结果显示更多条数
【必备参数】: