Jsoup-基础练习

认识Jsoup

一个解析网页的工具

无论你用什么语言爬虫，都要解析网页，今天，我们用一款常用的网页解析Jsoup，来开启爬虫的第一课

认识网页，认识爬虫，认识你自己

快速上手

了解一个新东西最快的方法就是频繁的使用和练习，让我们从最基础的地方开始

解析一个HTML字符串

    //    使用静态Jsoup.parse(String html) 方法或 Jsoup.parse(String html, String baseUri)

        val html = "<html><head><title>First parse</title>      </head><body><p>Parsed HTML into a doc.</p></body></html>"

        val doc = Jsoup.parse(html)

        println(doc)

输出如图：

解析一个body片断

    //  使用Jsoup.parseBodyFragment(String html)

        val html ="<div><p>Lorem ipsum.</p>"

        val doc = Jsoup.parseBodyFragment(html)

        println(doc.body())

输出如图：

从一个URL加载一个Document

示例网站，网站结构如下：

    //  使用Jsoup.parseBodyFragment(String html)

        val doc:Document = Jsoup.connect("http://example.com/").get()

        val title  = doc.title()

        println(title)

输出如图：

说明

connect(String url) 方法创建一个新的 Connection, 和 get() 取得和解析一个HTML文件。如果从该URL获取HTML时发生错误，便会抛出 IOException，应适当处理

    val doc:Document = Jsoup.connect("http://example.com")  //要链接的网址

      .data("query", "Java")  //添加链接信息

      .userAgent("Mozilla")   //模拟浏览器

      .cookie("auth", "token")  //模拟cookie

      .timeout(3000)  //设置超时时长，单位ms

      .post() //链接方式

到这里为止，你应该对Jsoup不陌生了，接下来，讲解一下爬虫中Jsoup最常用的部分

常用方法（核心）

解析网页的过程，其实就是一个逐级选中的过程

讲解具体方法之前，先给大家上一个简单安全的框架：

    // 爬取的网址

    val url = "https://www.zhihu.com/explore/recommendations"

    // 加上TryCatch框架

    Try(Jsoup.connect(url).get())match {

      case Failure(e) =>

        // 打印异常信息

        println(e.getMessage)

      case Success(doc:Document) =>

        // 解析正常则返回Document，然后提取Document内所需信息

        println(doc.body())

    }

有了这个框架之后，我们就可以更加肆无忌惮的调试我们的代码了

下面我们通过知乎推荐这个网站来讲解Jsoup的核心函数

网站URL： https://www.zhihu.com/explore/recommendations

网页内容如下：

我们要解析的内容如下：

标题
点赞
作者
简介

下面我们一点一点来解析这个网页：

首先是标题提取

    // 爬取的网址

    val url = "https://www.zhihu.com/explore/recommendations"

    // 加上TryCatch框架

    Try(Jsoup.connect(url).get())match {

      case Failure(e) =>

        // 打印异常信息

        println(e.getMessage)

      case Success(doc:Document) =>

        // 解析正常则返回Document，然后提取Document内所需信息

        val links = doc.select("div.zm-item") //选取class为"zm-item"的div

        for (link<-links.asScala){  //遍历每一个这样的div

          val title = link.select("h2").text()  //选取div中的所有"h2"标签，并读取它的文本内容

          println(title)  //打印标题

        }

    }

输出结果如下：

点赞，作者，简介的提取大同小异

// 爬取的网址

    val url = "https://www.zhihu.com/explore/recommendations"

    // 加上TryCatch框架

    Try(Jsoup.connect(url).get())match {

      case Failure(e) =>

        // 打印异常信息

        println(e.getMessage)

      case Success(doc:Document) =>

        // 解析正常则返回Document，然后提取Document内所需信息

        val links = doc.select("div.zm-item") //选取class为"zm-item"的div

        for (link<-links.asScala){  //遍历每一个这样的div

          val title = link.select("h2").text()  //选取div中的所有"h2"标签，并读取它的文本内容

          val approve = link.select("div.zm-item-vote").text() //找到赞同的位置，选中它并读取它的文本内容

          //逐层找到唯一识别的标签，然后选中（唯一识别很关键）

          val author = link.select("div.answer-head").select("span.author-link-line").select("a").text()

//          val content = link.select("div.zm-item-answer").select("div[data-action=/answer/content]")

//              .select(":not(.content)").first().text()  //对比下面简洁直接的定位

          val content = link.select("div.zh-summary.summary.clearfix").text() //多个class类型，直接加.就行，如.A.B.C

          println("标题："+title)  //打印标题

          println("赞同："+approve)  //打印回答点赞数

          println("作者："+author) //打印作者

          println("回答简介："+content)  //打印回答简介

        }

    }

ps：只要能定位到你想提取的文本，自然是越简洁越好

有时间的话，强烈推荐跟着官网练习一下，我也只是带着你练习而已，学会阅读文档，是一项很重要的技能

文档链接如下：
- jsoup Cookbook(中文版)
- jsoup Cookbook(英文版)

文档中是Java语法写的，如果你看的代码多了，你会发现，什么Java，scala，python，都是工具(完了完了，我膨胀了)

最常用到的是其中的 使用选择器语法来查找元素

结尾唠叨两句

如果你对我的文章感兴趣，欢迎你点开我下一篇文章，后面我将手把手带你一起完成一个个小case，对了如果你也有好的想法，欢迎沟通交流

今天的评论区强烈欢迎大家讲讲爬网站遇到的问题

如果有种子链接，免费代爬，苍老师是世界的！

结尾附上 使用选择器语法来查找元素 方法，以便大家快速查找

Selector选择器概述
- tagname: 通过标签查找元素，比如：a
- ns|tag: 通过标签在命名空间查找元素，比如：可以用 fb|name 语法来查找 fb:name 元素
- id: 通过ID查找元素，比如：#logo
- .class: 通过class名称查找元素，比如：.masthead
- [attribute] : 利用属性查找元素，比如：[href]
- [attr=value] : 利用属性值来查找元素，比如：[width=500]
- [attr^=value], [attr$=value], [attr=value]: 利用匹配属性值开头、结尾或包含属性值来查找元素，比如：[href=/path/]
- [attr~=regex]: 利用属性值匹配正则表达式来查找元素，比如： img[src~=(?i).(png|jpe?g)]
- *: 这个符号将匹配所有元素
Selector选择器组合使用
- el#id: 元素+ID，比如： div#logo
- el.class: 元素+class，比如： div.masthead
- el[attr]: 元素+class，比如： a[href]
- 任意组合，比如：a[href].highlight
- ancestor child: 查找某个元素下子元素，比如：可以用.body p 查找在"body"元素下的所有 p元素
- parent > child: 查找某个父元素下的直接子元素，比如：可以用div.content > p 查找 p 元素，也可以用body > * 查找body标签下所有直接子元素
- siblingA + siblingB: 查找在A元素之前第一个同级元素B，比如：div.head + div
- siblingA ~ siblingX: 查找A元素之前的同级X元素，比如：h1 ~ p
- el, el, el:多个选择器组合，查找匹配任一选择器的唯一元素，例如：div.masthead, div.logo
伪选择器selectors
- :lt(n): 查找哪些元素的同级索引值（它的位置在DOM树中是相对于它的父节点）小于n，比如：td:lt(3) 表示小于三列的元素
- :gt(n):查找哪些元素的同级索引值大于n，比如： div p:gt(2)表示哪些div中有包含2个以上的p元素
- :eq(n): 查找哪些元素的同级索引值与n相等，比如：form input:eq(1)表示包含一个input标签的Form元素
- :has(seletor): 查找匹配选择器包含元素的元素，比如：div:has(p)表示哪些div包含了p元素
- :not(selector): 查找与选择器不匹配的元素，比如： div:not(.logo) 表示不包含 class=logo 元素的所有 div 列表
- :contains(text): 查找包含给定文本的元素，搜索不区分大不写，比如： p:contains(jsoup)
- :containsOwn(text): 查找直接包含给定文本的元素
- :matches(regex): 查找哪些元素的文本匹配指定的正则表达式，比如：div:matches((?i)login)
- :matchesOwn(regex): 查找自身包含文本匹配指定正则表达式的元素
- 注意：上述伪选择器索引是从0开始的，也就是说第一个元素索引值为0，第二个元素index为1等

Jsoup-基础练习的更多相关文章

Jsoup实现java模拟登陆
Jsoup实现java模拟登陆 2013-10-29 14:52:05| 分类: web开发|举报|字号订阅下载LOFTER我的照片书 | 1:如何获取cookies. 1.1 ...
jsoup抓取借书记录
package tushuguan; import java.io.IOException; import java.util.ArrayList; import java.util.HashMap; ...
一步步教你为网站开发Android客户端---HttpWatch抓包，HttpClient模拟POST请求，Jsoup解析HTML代码，动态更新ListView
本文面向Android初级开发者,有一定的Java和Android知识即可. 文章覆盖知识点:HttpWatch抓包,HttpClient模拟POST请求,Jsoup解析HTML代码,动态更新List ...
使用java开源工具httpClient及jsoup抓取解析网页数据
今天做项目的时候遇到这样一个需求,需要在网页上展示今日黄历信息,数据格式如下公历时间:2016年04月11日星期一农历时间:猴年三月初五天干地支:丙申年壬辰月癸亥日宜:求子祈福开光 ...
Httpclient 和jsoup结和提取网页内容(某客学院视频链接）
最近在极客学院获得体验会员3个月,然后就去上面看了看,感觉课程讲的还不错.整好最近学习Android,然后去上面找点视频看看.发现只有使用RMB买的会员才能在上面下载视频.抱着试一试的态度,去看他的网 ...
Jsoup代码解读之四-parser
Jsoup代码解读之四-parser 作为Java世界最好的HTML 解析库,Jsoup的parser实现非常具有代表性.这部分也是Jsoup最复杂的部分,需要一些数据结构.状态机乃至编译器的知识.好 ...
Jsoup代码解读之二-DOM相关对象
Jsoup代码解读之二-DOM相关对象之前在文章中说到,Jsoup使用了一套自己的DOM对象体系,和Java XML API互不兼容.这样做的好处是从XML的API里解脱出来,使得代码精炼了很多 ...
网络爬虫技术Jsoup——爬到一切你想要的（转）
转自:http://blog.csdn.net/ccg_201216323/article/details/53576654 本文由我的微信公众号(bruce常)原创首发, 并同步发表到csdn博客, ...
剑指Offer——知识点储备-Java基础
剑指Offer--知识点储备-Java基础网址来源: http://www.nowcoder.com/discuss/5949?type=0&order=0&pos=4&pa ...
java网络爬虫基础学习（三）
尝试直接请求URL获取资源豆瓣电影 https://movie.douban.com/explore#!type=movie&tag=%E7%83%AD%E9%97%A8&sort= ...

随机推荐

ActionChains方法
click(on_element=None) ——单击鼠标左键 click_and_hold(on_element=None) ——点击鼠标左键,不松开 context_click(on_elemen ...
mysql对子查询的优化改写
重庆SEO:<高性能mysql第三版>提到mysql会将in子查询改写成exists查询(书中基于的mysql版本是5.1.50和5.5) 但是在5.6之后,已经优化成使用半连接查询 SE ...
[Angular] Using Pipe for function memoization
Sometimes we might have some expensive function to calcuate state directly from template: <div cl ...
简单聊聊TiDB中sql优化的一个规则---左连接消除(Left Out Join Elimination)
我们看看 TiDB 一段代码的实现 --- 左外连接(Left Out Join)的消除; select 的优化一般是这样的过程: 在逻辑执行计划的优化阶段, 会有很多关系代数的规则, 需要将逻辑执行 ...
2G以上的大文件如何上传
无法上传大文件是因为php.ini配置有限制了,这样限制了用户默认最大为2MB了,超过了就不能上传了,如果你确实要上传我们可以按下面方法来处理一下. 打开php.ini, 参数设置说明 fil ...
leetcode解题报告（23）：Pascal's Triangle
描述 Given numRows, generate the first numRows of Pascal's triangle. For example, given numRows = 5, R ...
[cogs] 传染病控制
http://cogs.pro:8080/cogs/problem/problem.php?pid=107 去年6月份的代码了,又长又臭又WA 暴力贪心模拟水水50 #include<iost ...
斜率dp的模板总结
#include<cstdio> #include<algorithm> using namespace std; long long sumt[40005],sum[4000 ...
git .gitignore 有时不起作用的问题
有时候,.gitignore 会对部分文件 / 文件夹失效,大概原因是由于新创建的文件已经出现在 git 本地仓库的缓存,所以.gitignore 就失效了解决办法就是清空一下 git 仓库的缓存, ...
zabbix (8) 自动发现
当主机数量过多时,如果一台一台的添加,估计整个人都要崩溃,而通过自动发现或者自动注册可以大批量的添加主机,并且自动绑定模板,触发器,动作等操作 1.基本配置 (1)创建发现规则 (2)配置规则效果如 ...