使用jsoup解析html页面内容案例

public String getFaGuiKuTitles(String type, int page) {

        String href = "http://info.qd-n-tax.gov.cn/NewFaGuiKu/"+type+"/";

        String baseUrl = href + "index";

        int no = 0;

        String msg = "";

        if(page>0){

            baseUrl = baseUrl + "_"+page;

        }

        baseUrl += ".htm";

        int totalPage = 0;

        List<FaGui> list = new ArrayList<FaGui>();

        try {

            URL url = new URL(baseUrl);

            org.jsoup.nodes.Document doc = Jsoup.parse(url, 10000);

            org.jsoup.nodes.Element table = doc.select("table").get(0);

            org.jsoup.nodes.Element tbody = table.select("tbody").get(0);

            org.jsoup.select.Elements rows = tbody.select("tr");

            int len = rows.size();

            for (int i = 0; i < len; i++) {

                org.jsoup.select.Elements cols = rows.get(i).select("td");

                FaGui fg = new FaGui();

                fg.setTitle(cols.get(0).text());

                fg.setDate(cols.get(1).text());

                if(cols.size()>2){

                    fg.setFwzh(cols.get(2).text());

                }

                org.jsoup.nodes.Element a = cols.get(0).select("a").get(0);

                fg.setHref(a.attr("href").replaceFirst("./", href));

                list.add(fg);

            }

            //翻页信息

            String pager = doc.getElementsByClass("pager").get(0).html();

            int start = pager.indexOf("(")+1;

            int end = pager.indexOf(",");

            pager = pager.substring(start, end);//截取页面中的总页数

            if(pager.matches("\\d+")){

                totalPage = Integer.parseInt(pager);

            }

            no = 1;

            msg = "SUCCESS";

            log.info("获取税收法规库标题内容", "getFaGuiKuTitles");

        } catch (MalformedURLException ex) {

            Logger.getLogger(LocalServiceImpl.class.getName()).log(Level.SEVERE, null, ex);

            msg = "获取税收法规库标题内容:baseUrl"+baseUrl+"不可用,ex:"+ex;

            log.error(msg, "getFaGuiKuTitles");

        } catch (IOException ex) {

            Logger.getLogger(LocalServiceImpl.class.getName()).log(Level.SEVERE, null, ex);

            msg = "获取税收法规库标题内容:IO异常,ex:"+ex;

            log.error(msg, "getFaGuiKuTitles");

        }        

        return ResultUtil.getResult(no, msg, list,totalPage,page);

    }

使用jsoup解析html页面内容案例的更多相关文章

Android开发探秘之三：利用jsoup解析HTML页面
这节主要是讲解jsoup解析HTML页面.由于在android开发过程中,不可避免的涉及到web页面的抓取,解析,展示等等,所以,在这里我主要展示下利用jsoup jar包来抓取cnbeta.com网 ...
jsoup 解析html 页面数据
我html 页面元素: /html/body/table[2]/tbody/tr[1]/td/table/tbody/tr[1]/td[2]/font/html/body/table[2]/tbody ...
Android中利用jsoup解析html页面
学习jsoup :jsoup学习网站 Android 中使用: 添加依赖 implementation 'org.jsoup:jsoup:1.10.1' 直接上代码: package com.load ...
XML解析——Jsoup解析器
一.Jsoup解析器快速入门案例 Docement对象,文本对象,包含着各个Dom树结构 1.引入Jsoup解析器的jar包放在lib文件夹下后,写java代码其中, 二.Jsoup对象 1.Jso ...
php 获得汇率（解析页面内容获得指定数据）
首先贴出原文链接:https://jingyan.baidu.com/article/922554465bf115851748f45f.html 方法如下: function getRate($fro ...
jsoup解析页面
package com.java.jsoup; /** * jsoup解析网页 * @author nidegui * @version 2019年4月29日下午5:12:02 * */ impor ...
Java爬虫系列三：使用Jsoup解析HTML
在上一篇随笔<Java爬虫系列二:使用HttpClient抓取页面HTML>中介绍了怎么使用HttpClient进行爬虫的第一步--抓取页面html,今天接着来看下爬虫的第二步--解析抓取 ...
Android利用Jsoup解析html 开发网站客户端小记。
这些天业余时间比较多,闲来无事,想起了以前看过开发任意网站客户端的一篇文章,就是利用jsoup解析网站网页,通过标签获取想要的内容.好了废话不多说,用到的工具为 jsoup-1.7.2.jar包,具体 ...
一步步教你为网站开发Android客户端---HttpWatch抓包，HttpClient模拟POST请求，Jsoup解析HTML代码，动态更新ListView
本文面向Android初级开发者,有一定的Java和Android知识即可. 文章覆盖知识点:HttpWatch抓包,HttpClient模拟POST请求,Jsoup解析HTML代码,动态更新List ...

随机推荐

Back to Basics: Using KVO
One of the things I like most about Apple’s iOS SDK is the consistent and easy-to-use API they provi ...
Java中的不可变类
概念:不可变类的意思是创建该类的实例后,该实例的属性是不可改变的.java中的8个包装类和String类都是不可变类.所以不可变类并不是指该类是被final修饰的,而是指该类的属性是被final修饰的 ...
linux内核--自旋锁的理解
http://blog.chinaunix.net/uid-20543672-id-3252604.html 自旋锁:如果内核配置为SMP系统,自旋锁就按SMP系统上的要求来实现真正的自旋等待,但是对 ...
Java容器详解
线性表,链表,哈希表是常用的数据结构,在进行Java开发时,JDK已经为我们提供了一系列相应的类来实现基本的数据结构.这些类均在java.util包中.在Java中,容器的类型主要有:List.Set ...
安装VS2012 update3提示缺少Microsoft根证书颁发机构2010或2011的解决方法
警告提示如图: (copy的百度贴吧的童鞋的截图) 解决方法: 下载2010.10或2011.10的根证书即可直通车:http://maxsky.ys168.com/ ——05.||浮云文件||—— ...
Django 安装MySQLdb模块
首先装 mysql的时候我用的是 apt-get install mysql-client-core-5.1 (当时以为core的牛逼) 其实直接安mysql-client-5.1就行了问题 ...
Android常用ProgressDialog设置
public static ProgressDialog initDialog(Context context) { ProgressDialog progressDialog = new Progr ...
Zend框架2入门(二) (转)
Zend框架2使用一个模块系统,和你组织内每个你的主应用程序特定代码模块.骨架提供的应用程序模块是用于提供引导,错误和路由配置到整个应用程序.它通常是用来提供应用水平控制器,比如说,应用程序的主页,但 ...
SVN 中trunk、tags、branches使用
简介我们都知道SVN是管理项目源代码的软件,可以把我们开发中的各个阶段的代码记录下来,供我们以后来使用,那么SVN具体的结构你是否知道呢?下面我们来介绍一下它的基本结构 Trunk.Branches ...
charAt(i) 函数
charAt(i) 函数是获取字符串中i位置的字符 str.charAt(i)的意思是第i个字符在字符串str中所占的位置,输出的是数字 for (var i = 0; i < str.len ...

使用jsoup解析html页面内容案例

使用jsoup解析html页面内容案例的更多相关文章

随机推荐

热门专题