Android Jsoup 爬取网页数据

一不小心一个月又过去了，事实上近期还是小忙小忙的，废话不多说。直接进入今天的主题吧。

Jsoup – Java HTML Parser, with best of DOM, CSS, and jquery.。看这个介绍就知道。这个就是方便咱们 Java 和Android 来解析 HTML 的。

HTML 标签

要去爬别人的 HTML 标签的话，首先你肯定得有一定的 HTML 的基础知识吧。

比方说经常使用的标签。标签的相关属性，这个就不多说了，有相关问题都能够在 www.w3school.com.cn 的站点解决一下。

载入网页

最简单的，直接载入一个网页：

  Document document = Jsoup.connect("https://www.google.com").get();

那看到最后的 get() 方法聪明滴你一定就猜到另一个相应的 post() 方法了吧。

另外，http 请求的相关操作都是能够设置的。包括 header 请求參数。请求超时等等。除此之外，本地的文件（IO流）等都是能够直接解析的哈。

Document document = Jsoup.connect("https://android-arsenal.com")

        .timeout(5000)

        .cookie("cookie", "cxxx")

        .header("xx", "xx")

        .userAgent("")

        .get();

基本标签解析

之后咱们就得到了一个 Document 的对象了。这个对象就是对整个请求网页的封装。相关内容都能够在里面获取。

来吧，增加我们有以下一段html标签须要解析：



            RendererRecyclerViewAdapter

            Recycler Views
        

        Free

        New
    


A single adapter for the whole project.
Now you do not need to implement adapters for RecyclerView.
You can easily use several types of cells in a single list.
Using this library will protect you from the appearance of any business logic in an adapter.
 Mar 17, 2017

" data-snippet-id="ext.8586638da0117b735369be55f34e6d37" data-snippet-saved="false" data-codota-status="done">

<div class="project-info clearfix">

    <div class="header">

        <div class="title">

            <a href="/details/1/5442">RendererRecyclerViewAdapter</a>

            <a class="tags" href="/tag/199">Recycler Views</a>

        </div>

        <a class="badge free" href="/free">Free</a>

        <a class="badge new" href="/recent">New</a>

    </div>

    <div class="desc">

        <p>A single adapter for the whole project.</p>

        <ul>

        <li>Now you do not need to implement adapters for RecyclerView.</li>

        <li>You can easily use several types of cells in a single list.</li>

        <li>Using this library will protect you from the appearance of any business logic in an adapter.</li>

        </ul>

    </div>

    <div class="ftr l"><i class="fa fa-calendar"></i> Mar 17, 2017</div>

</div>

Jsoup 里面对于标签的寻找使用的方法是 select() 方法。这种方法不要太强大了。咱们一步一步的来。

比方我们要在茫茫标签中找到 <div class="project-info clearfix"> 的话，拿这里就是应该 findElementByClass() ，那么在 Jsoup 中是怎么定义这一块的呢？

哈哈，非常easy嘛，那就是 document.select("div.project-info clearfix") 咯，当然不是这样子的。等等 class 属性里面这个空格是什么意思啊？是不是一脸懵逼？这里终于的写法是 document.select("div.project-info.clearfix") 空格须要用 . 来处理。

      Elements select = document.select("div.project-info.clearfix");

这里得到是一个集合。

我们接下来就须要遍历这个集合，然后把里面的每个标签都拔出来。

title 部分的解析，这里是一个 <div> 里面嵌套了一个 <a> 的标签。这里就涉及到了解析 <a> 标签了。这里我们须要相应的 href，也须要相应的 text ， Jsoup 提供了相应的两个方法 attr() 和 text() 。

Elements elements = e.select("div.title");

if (!elements.isEmpty()) {

    for (Element tittle : elements) {

        Element first = tittle.select("a[href]").first();

        if (first != null) {

            title = first.text();

            titleUrl = first.attr("href");

            System.out.println("名称：" + title);

            System.out.println("详细地址：" + titleUrl);

        }

        Elements select1 = tittle.select("a.tags");

        if (!select1.isEmpty()) {

            tag = select1.text();

            tagUrl = select1.attr("href");

            System.out.println("tags:" + tag);

            System.out.println("tagUrl:" + tagUrl);

        }

    }

}

嵌套解析

到这里。 <div> 和 <a> 标签的介绍基本搞定。接下来就是 <div class="desc"> 的解析了。

<div class="desc">

    <p>A single adapter for the whole project.</p>

    <ul>

    <li>Now you do not need to implement adapters for RecyclerView.</li>

    <li>You can easily use several types of cells in a single list.</li>

    <li>Using this library will protect you from the appearance of any business logic in an adapter.</li>

    </ul>

</div>

这里又多了 <ul> 和 <li> 了。事实上道理是几乎相同的，可是这里它们既没有 class 也没有 id 。那这个我们应该这么去解析呢？

这里还是要回到 select() 方法，这里就须要使用到指定层级的方法了。

        Elements select1 = e.select("div.desc > p");

        String s = select1.toString();

对于 <dt> <dd> 相关的标签，就能够使用 + 相关的连接符了。比如我想要仅仅解析 Tag 以下的相应的 Tag 名称和相关的 url，这个应该怎么写呢？

<dt>Tag</dt>

<dd><a href="/tag/9">Background Processing</a></dd>

<dt>License</dt>

<dd><a href="http://opensource.org/licenses/Apache-2.0" rel="nofollow" target="_blank">Apache License, Version 2.0</a>

</dd>

代码就是这种，这里一不小心就又引出了 select() 方法的嵌套高级写法。

 Elements select4 = element.select("dt:contains(Tag) + dd");

事实上不用太多解释啦。截图里面描写叙述的非常清楚了。最后一个是能够支持正则的匹配。

同级相邻解析

另一种情况就是我们须要的标签没有详细的 id 或者 class，而且它没有直接相应的父标签或者某种固定的嵌套关系，比如以下这种情况：



ImmediateLooperScheduler

" data-snippet-id="ext.2bc5ebe9840f0e244465396f590a3cf3" data-snippet-saved="false" data-codota-status="done"><a id="favoriteButton" href="#" class="fa fa-star-o favorite tshadow" title="Add to favorites"></a>

<a href="/details/1/5244">ImmediateLooperScheduler</a> <div id="githubInfoValue">

这里我们仅仅须要解析到第二个 <a> 标签，那么须要怎么处理呢？这里就须要使用到 nextElementSibling() 的方法了。

Element ssa = h1.select("a#favoriteButton").first();

Element element = ssa.nextElementSibling();

String title = element.text();

模糊解析

imageMogr2/auto-orient/strip%7CimageView2/2/w/1240" alt="属性限制.png" title="">

有时候我们仅仅知道这个 <div> 是以什么开头或者是以什么结尾或者又是里面包括了某个单词的，那么这个时候就须要使用模糊查找了。

在 Jsoup 中定义了这些情况的相关 select() 写法，当中。以什么开头。是使用 a[href^=http] ,以什么结尾使用 a[href$=.jpg] ，包括什么就是使用 a[href*=/search/]。

javascript 解析

刚刚说的都是普通标签及其内容，假设我要获取js相关的标签以及内容呢？事实上也不难，仅仅是最后不是使用text()的方法。而是使用data()的方法了。

就是 Jsoup 最基本的就是写好这个 select() 方法，

final Elements script = document.select("script");

String js = script.first().data();

Android Jsoup 爬取网页数据

HTML 标签

载入网页

基本标签解析

嵌套解析

同级相邻解析

模糊解析

javascript 解析

相关实战

Android Jsoup 爬取网页数据的更多相关文章

随机推荐

热门专题