使用Jsoup和htmlunit爬取动态网页

　　在对http://zkgg.tjtalents.com.cn/newzxxx.jsp这个网页爬取内容时，如果只使用Jsoup进行解析的话，起内部的a href标签内容无法获取到。

但是实际上通过

Document doc = Jsoup.connect(url).get();

获取到的文档只是newzxxx.jsp中respose的内容。

实际我们想要的内容通过js加载得到的。

function query(){

   $("formzx").fid.value = "C09.01.01.05";

    $("formzx").set('send',{

        url: 'MainServlet.action',

        onRequest: function(){

        },

        //成功的回调函数

        onSuccess: function(responseText){

          $('listspan').innerHTML = responseText;

        },

        //失败的回调函数. 404. 500. 以及返回JSON串success为false时执行

        onFailure: function(responseText){

          $('listspan').innerHTML = responseText;

         }

      });

    $("formzx").send();

  }

所以这种情况我们可以使用htmlunit来模拟浏览器，并且等待js加载完毕后，再读取整个页面。

public String getPageWaitJS (String url) throws IOException {

        WebClient webClient = new WebClient();

        webClient.getOptions().setJavaScriptEnabled(true); //启用JS解释器，默认为true

        webClient.getOptions().setCssEnabled(false); //禁用css支持

        webClient.getOptions().setThrowExceptionOnScriptError(false); //js运行错误时，是否抛出异常

        HtmlPage page = webClient.getPage(url);

        webClient.waitForBackgroundJavaScript(3*1000);

        String pageXml = page.asXml(); //以xml的形式获取响应文本

        return pageXml;

    }

这样的话就能够获取全部的html页面，之后再使用Jsoup来对页面进行解析即可，这里就不放上Jsoup的代码了。

使用Jsoup和htmlunit爬取动态网页的更多相关文章

R语言爬取动态网页之环境准备
在R实现pm2.5地图数据展示文章中,使用rvest包实现了静态页面的数据抓取,然而rvest只能抓取静态网页,而诸如ajax异步加载的动态网页结构无能为力.在R语言中,爬取这类网页可以使用RSele ...
Jsoup配合 htmlunit 爬取异步加载的网页
加入 jsoup 和 htmlunit 的依赖 <dependency> <groupId>org.jsoup</groupId> <artifactId&g ...
记录几个爬取动态网页时的问题(下拉框，旧的元素无法获取，获取的源代码和f12看到的不一致，爬取延迟)
更新.....这个动态网页其实直接抓取ajax请求就可以了,很简单,我之前想复杂了,虽然也实现了,但是效率极低,不过没关系,就当作是对Selenium的一次学习吧 1.最近在爬取一个动态网页,其中为了 ...
python爬取动态网页数据，详解
原理:动态网页,即用js代码实现动态加载数据,就是可以根据用户的行为,自动访问服务器请求数据,重点就是:请求数据,那么怎么用python获取这个数据了? 浏览器请求数据方式:浏览器向服务器的api(例 ...
爬虫（三）通过Selenium + Headless Chrome爬取动态网页
一.Selenium Selenium是一个用于Web应用程序测试的工具,它可以在各种浏览器中运行,包括Chrome,Safari,Firefox 等主流界面式浏览器. 我们可以直接用pip inst ...
利用selenium并使用gevent爬取动态网页数据
首先要下载相应的库 gevent协程库:pip install gevent selenium模拟浏览器访问库:pip install selenium selenium库相应驱动配置 https: ...
爬取动态网页：Selenium
参考:http://blog.csdn.net/wgyscsf/article/details/53454910 概述在爬虫过程中,一般情况下都是直接解析html源码进行分析解析即可.但是,有一种情 ...
python爬取动态网页2，从JavaScript文件读取内容
import requests import json head = {"user-agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) ...
phantomjs+selenium实现爬取动态网址
之前使用 selenium + firefox驱动浏览器来实现爬取动态网址,但是firefox经常更新,更新后时常会导致webdriver启动不来,所以改用phantomjs+selenium来改善一 ...
Python+Selenium爬取动态加载页面（2）
注: 上一篇<Python+Selenium爬取动态加载页面(1)>讲了基本地如何获取动态页面的数据,这里再讲一个稍微复杂一点的数据获取全国水雨情网.数据的获取过程跟人手动获取过程类似,所 ...

随机推荐

力扣1346(java&python)-检查整数及其两倍数是否存在（简单）
题目: 给你一个整数数组 arr,请你检查是否存在两个整数 N 和 M,满足 N 是 M 的两倍(即,N = 2 * M). 更正式地,检查是否存在两个下标 i 和 j 满足: i != j 0 &l ...
力扣915(java&python)-分割数组（中等）
题目: 给定一个数组 nums ,将其划分为两个连续子数组 left 和 right, 使得: left 中的每个元素都小于或等于 right 中的每个元素.left 和 right 都是非空的.le ...
牛客网-SQL专项训练3
①这里有一张user表包含如下信息: 现在要把name列的所有值都转换为大写,并将字段重命名为names,像下面这样: SQL语句为:SELECT UCASE(name) AS names FROM ...
将 Terraform 生态粘合到 Kubernetes 世界
简介: 为了更高效,统一的管理云服务,IaC 思想近年来盛行,其中 Terrafrom 更是成功得到了几乎所有的云厂商的采纳和支持.以 Terrafrom 模型为核心的云服务 IaC 生态已经形成.然 ...
配置审计（Config）配合开启OSS防盗链功能
简介: 本文作者:紫极zj 本文将主要介绍利用[配置审计]功能,如何快速发现企业上云过程中,针对未配置防盗链的 OSS Bucket 定位及修复案例. 前言配置审计(Config)将您分散在各地域的 ...
重磅 | 数据库自治服务DAS论文入选全球顶会SIGMOD，领航“数据库自动驾驶”新时代
简介: 近日,智能数据库和DAS团队研发的智能调参ResTune系统论文被SIGMOD 2021录用,SIGMOD是数据库三大顶会之首,是三大顶会中唯一一个Double Blind Review的,其 ...
[Contract] truffle-flattener 合并 Solidity 文件的依赖到一个文件
使用 $ npm install truffle-flattener -g $ truffle-flattener <solidity-files> > output.sol 为什么 ...
Pod入门知识(4)
一.Pod是什么? 官方文档:https://kubernetes.io/docs/concepts/workloads/pods/ Pod 是 Kubernetes 中的最小调度单元,k8s 是通过 ...
四：海思Hi3516CV500/Hi3516DV300
Hi3516CV500 和 Hi3516DV300 均是海思推出的 IP Camera SoC [System-on-a-Chip:SoC芯片是一种集成电路的芯片] 芯片. 针对海思 HI3516D ...
启动docker某个image（镜像）的已经关闭的container（容器）
1．创建一个后台运行 ubuntu 容器 root@haima-PC:/home/haima/Desktop# docker run -d --name ubuntu-lnmp ubuntu bf24 ...

使用Jsoup和htmlunit爬取动态网页

使用Jsoup和htmlunit爬取动态网页的更多相关文章

随机推荐

热门专题