htmlunit爬虫工具使用--模拟浏览器发送请求，获取JS动态生成的页面内容

Htmlunit是一款模拟浏览抓取页面内容的java框架，具有js解析引擎(rhino)，可以解析页面的js脚本，得到完整的页面内容，特殊适合于这种非完整页面的站点抓取。

下载地址:

　　https://sourceforge.net/projects/htmlunit/files/htmlunit/

maven地址:

        <dependency>

            <groupId>net.sourceforge.htmlunit</groupId>

            <artifactId>htmlunit</artifactId>

            <version>2.18</version>

        </dependency>

代码的实现非常简单，主要分为两种常用场景：

解析页面的js
不解析页面的js

package cn.qlq.craw.httpunit;

import com.gargoylesoftware.htmlunit.BrowserVersion;

import com.gargoylesoftware.htmlunit.WebClient;

import com.gargoylesoftware.htmlunit.html.HtmlPage;

/**

 * httpunit爬虫

 * @author liqiang

 *

 */

public class HttpUnitCraw {  

    public static void main(String[] args) throws Exception {

        HttpUnitCraw crawl = new HttpUnitCraw();

        String url = "http://qiaoliqiang.cn/";

        System.out.println("----------------------抓取页面时不解析js-----------------");

        crawl.crawlPageWithoutAnalyseJs(url);

        System.out.println("----------------------抓取页面时解析js-------------------");

        crawl.crawlPageWithAnalyseJs(url);

    }  

    /**

     * 功能描述：抓取页面时不解析页面的js

     * @param url

     * @throws Exception

     */

    public void crawlPageWithoutAnalyseJs(String url) throws Exception{

        //1.创建连接client

        WebClient webClient = new WebClient(BrowserVersion.CHROME);

        //2.设置连接的相关选项

        webClient.getOptions().setCssEnabled(false);

        webClient.getOptions().setJavaScriptEnabled(false);

        webClient.getOptions().setTimeout(10000);

        //3.抓取页面

        HtmlPage page = webClient.getPage(url);

        System.out.println(page.asXml());

        //4.关闭模拟窗口

        webClient.closeAllWindows();

    }  

    /**

     * 功能描述：抓取页面时并解析页面的js

     * @param url

     * @throws Exception

     */

    public void crawlPageWithAnalyseJs(String url) throws Exception{

        //1.创建连接client

        WebClient webClient = new WebClient(BrowserVersion.CHROME);

        //2.设置连接的相关选项

        webClient.getOptions().setCssEnabled(false);

        webClient.getOptions().setJavaScriptEnabled(true);  //需要解析js

        webClient.getOptions().setThrowExceptionOnScriptError(false);  //解析js出错时不抛异常

        webClient.getOptions().setTimeout(10000);  //超时时间  ms

        //3.抓取页面

        HtmlPage page = webClient.getPage(url);

        //4.将页面转成指定格式

        webClient.waitForBackgroundJavaScript(10000);   //等侍js脚本执行完成

        System.out.println(page.asXml());

        //5.关闭模拟的窗口

        webClient.closeAllWindows();

    }

}

主要关注webClient的几个选项配置，

需要将这两个开关打开才可以解析页面的js,css的渲染默认关掉就可以，因为爬虫本身没有界面，所以这块不需要，即下面的配置：

htmlunit在解析js的时候也有可能失败，这块还没有深入研究，后续使用遇到问题再记录

抓取到的内容默认以xml形式获得，即page.asXml(), 因为这样可以通过jsoup去解析html页面数据，jsoup是一个比较方便简洁的工具.

htmlunit爬虫工具使用--模拟浏览器发送请求，获取JS动态生成的页面内容的更多相关文章

使用HttpClient配置代理服务器模拟浏览器发送请求调用接口测试
在调用公司的某个接口时,直接通过浏览器配置代理服务器可以请求到如下数据: 请求url地址:http://wwwnei.xuebusi.com/rd-interface/getsales.jsp?cid ...
20200726_java爬虫_使用HttpClient模拟浏览器发送请求
浏览器获取数据: 打开浏览器 ==> 输入网址 ==> 回车查询 ==> 返回结果 ==> 浏览器显示结果数据 HttpClient获取数据: 创建HttpClient ==& ...
telnet客户端模拟浏览器发送请求
telnet 客户端 telnet客户端能够发出请求去连接服务器(模拟浏览器) 使用telnet之前,需要开启telnet客户端 1.进入控制面板 2.进入程序和功能,选择打开或关闭windows功能 ...
Java基础教程——模拟浏览器发送请求
JAVA访问网页分别测试使用get和post方法访问网页,可以收到服务器的请求,并写入到html文件中. import java.io.*; import java.net.*; import ja ...
HtmlUnit爬取Ajax动态生成的页面内容
HtmlUnit说白了就是一个浏览器,这个浏览器是用Java写的无界面的浏览器,正因为其没有界面,因此执行的速度还是可以滴. HtmlUnit提供了一系列的API,这些API可以干的功能比较多,如表单 ...
java模拟浏览器发送请求
package test; import java.io.BufferedReader; import java.io.DataOutputStream; import java.io.IOExcep ...
JAVA--利用HttpClient模拟浏览器登陆请求获取响应的Cookie
在通过java采集网页数据时,我们常常会遇到这样的问题: 站点需要登陆才能访问而这种网站,一般都会对请求进行账号密码的验证,验证的方式也有多种,需要具体分析. 今天分析其中的一种情况: 站点对登陆密 ...
php使用curl模拟多线程发送请求
每个PHP文件的执行是单线程的,但是php本身也可以用一些别的技术实现多线程并发比如用php-fpm进程,这里用curl模拟多线程发送请求.php的curl多线程是通过不断调用curl_multi_e ...
httpClient模拟浏览器发请求
一.介绍 httpClient是Apache公司的一个子项目, 用来提高高效的.最新的.功能丰富的支持http协议的客户端编程工具包.完成可以模拟浏览器发起请求行为. 二.简单使用例子 : 模拟浏览器 ...

随机推荐

php过滤字符串
addslashes(); stripslashes(); //对数据库教程操作时,转义特殊字符定义:addslashes() 函数在指定的预定义字符前添加反斜杠. 语法:addslashes(st ...
js 实现路由功能
class Router { constructor() { this.routes = [] } handle(pattern, handler) { this.routes.push({ patt ...
[十二]SpringBoot 之 servlet
Web开发使用 Controller 基本上可以完成大部分需求,但是我们还可能会用到 Servlet.Filter.Listener.Interceptor 等等. 当使用spring-Boot时,嵌 ...
Docker学习笔记六：Docker搭建企业级私有仓库
前言 Docker不仅是一个强大的服务器部署工具,而且它还有一个官方的Docker Hub registry用于储存Docker镜像.上传镜像到Docker Hub是免费的,上传的镜像文件同时也对公共 ...
【BZOJ2141】排队（树套树）
[BZOJ2141]排队(树套树) 题面 BZOJ 洛谷题解傻逼题啊... 裸的树套树树状数组套线段树,每次交换的时候,考虑一下前后的贡献,先删掉贡献,再重新算一遍就好了.. #include& ...
图像处理之均值滤波介绍及C算法实现
1 均值滤波介绍滤波是滤波是将信号中特定波段频率滤除的操作,是从含有干扰的接收信号中提取有用信号的一种技术. 均值滤波是典型的线性滤波算法,它是指在图像上对目标像素给一个模板,该模板包括了其周围的临 ...
poj1006 生理周期
生理周期 Time Limit: 1000MS Memory Limit: 10000K Total Submissions: 138947 Accepted: 44597 Descripti ...
gdb打印STL和boost容器
http://note.youdao.com/noteshare?id=b581e0db0084b6ba3011d9d27d372c91
shell 脚本判断linux 的发行版本
原文vi ./Get_Dist_Name.sh #!/bin/bash Get_Dist_Name() { if grep -Eqii "CentOS" /etc/issue || ...
css中px em rem vw vh vmax vmin等单位的区别--转载
px:绝对单位,页面按精确像素展示 em:相对单位,基准点为父节点字体的大小,如果自身定义了font-size按自身来计算(浏览器默认字体是16px),整个页面内1em不是一个固定的值. rem:相对 ...

htmlunit爬虫工具使用--模拟浏览器发送请求，获取JS动态生成的页面内容

htmlunit爬虫工具使用--模拟浏览器发送请求，获取JS动态生成的页面内容的更多相关文章

随机推荐

热门专题