java使用htmlunit工具抓取js中加载的数据

htmlunit 是一款开源的java 页面分析工具，读取页面后，可以有效的使用htmlunit分析页面上的内容。项目可以模拟浏览器运行，被誉为java浏览器的开源实现。这个没有界面的浏览器，运行速度也是非常迅速的。采用的是Rhinojs引擎。模拟js运行。

说白了就是一个浏览器，这个浏览器是用Java写的无界面的浏览器，正因为其没有界面,因此执行的速度还是可以滴，HtmlUnit提供了一系列的API,这些API可以干的功能比较多，如表单的填充，表单的提交，模仿点击链接，由于内置了Rhinojs引擎，因此可以执行Javascript。
网页获取和解析速度较快，性能较好，推荐用于需要解析网页脚本的应用场景。

在使用此工具前需要导入htmlunit需要的jar包：

代码：

public static String url="http://www.XXX.cn/XXX";//抓取数据的地址

    public static void main(String[] args) throws IOException, SAXException

    {

        WebClient wc = new WebClient(BrowserVersion.FIREFOX_52);

        wc.getOptions().setJavaScriptEnabled(true); //启用JS解释器，默认为true

        wc.setJavaScriptTimeout(100000);//设置JS执行的超时时间

        wc.getOptions().setCssEnabled(false); //禁用css支持

        wc.getOptions().setThrowExceptionOnScriptError(false); //js运行错误时，是否抛出异常

        wc.getOptions().setTimeout(10000); //设置连接超时时间 ，这里是10S。如果为0，则无限期等待

        wc.setAjaxController(new NicelyResynchronizingAjaxController());//设置支持AJAX

        wc.setWebConnection(new WebConnectionWrapper(wc) {

                    public WebResponse getResponse(WebRequest request) throws IOException {

                        WebResponse response = super.getResponse(request);

                        String data=  response.getContentAsString();

                        if (data.contains("{\"js中的数据标识\"")){//判断抓到的js数据是否是包含抓取的字段

                            System.out.println(data);

                            writeFile(data);//将js中获取的数据写入指定路径的txt文件中

                        }

                        return response;

                    }

                }

        );

        HtmlPage page = wc.getPage(url);

        System.out.println("page:" + page);

        try {

            Thread.sleep(1000);//设置

        } catch (InterruptedException e) {

            e.printStackTrace();

        }

        //关闭webclient

        wc.close();

    }

    /**

     * 写入TXT文件

     */

    public static void writeFile(String data) {

        try {

            File writeName = new File("data.txt"); // 相对路径，如果没有则要建立一个新的output.txt文件

            writeName.createNewFile(); // 创建新文件,有同名的文件的话直接覆盖

            try{
　　　　　　　　　 FileWriter writer = new FileWriter(writeName); 
　　　　　　　　　 BufferedWriter out = new BufferedWriter(writer);

                out.write(data);

                out.flush(); // 把缓存区内容压入文件

            }

        } catch (IOException e) {

            e.printStackTrace();

        }

    }

java使用htmlunit工具抓取js中加载的数据的更多相关文章

利用Crowbar抓取网页异步加载的内容 [Python俱乐部]
利用Crowbar抓取网页异步加载的内容 [Python俱乐部] 利用Crowbar抓取网页异步加载的内容在做 Web 信息提取.数据挖掘的过程中,一个关键步骤就是网页源代码的获取.但是出于各种原因 ...
Scrapy爬虫框架教程（四）-- 抓取AJAX异步加载网页
欢迎关注博主主页,学习python视频资源,还有大量免费python经典文章 sklearn实战-乳腺癌细胞数据挖掘 https://study.163.com/course/introduction ...
ArcGIS客户端API中加载大量数据的几种解决办法
ArcGIS客户端API中加载大量数据的几种解决办法 2011-03-25 18:17 REST风格的一切事物方兴未艾,ArcGIS Server的客户端API(Javascript/Flex/Sil ...
在Spring Boot中加载初始化数据
文章目录依赖条件 data.sql文件 schema.sql 文件 @sql注解 @SqlConfig 注解在Spring Boot中加载初始化数据在Spring Boot中,Spring Bo ...
scrapy项目5：爬取ajax形式加载的数据，并用ImagePipeline保存图片
1.目标分析: 我们想要获取的数据为如下图: 1).每本书的名称 2).每本书的价格 3).每本书的简介 2.网页分析: 网站url:http://e.dangdang.com/list-WY1-dd ...
使用轻量级JAVA 爬虫Gecco工具抓取新闻DEMO
写在前面最近看到Gecoo爬虫工具,感觉比较简单好用,所有写个DEMO测试一下,抓取网站 http://zj.zjol.com.cn/home.html,主要抓取新闻的标题和发布时间做为抓取测试对象 ...
点滴积累【C#】---抓取页面中想要的数据
效果: 描述:此功能是抓取外国的一个检测PM2.5的网站.实时读取网站的数据,然后保存到数据库里面.每隔一小时刷新一次. 地址为:http://beijing.usembassy-china.org. ...
简易数据分析 10 | Web Scraper 翻页——抓取「滚动加载」类型网页
这是简易数据分析系列的第 10 篇文章. 友情提示:这一篇文章的内容较多,信息量比较大,希望大家学习的时候多看几遍. 我们在刷朋友圈刷微博的时候,总会强调一个『刷』字,因为看动态的时候,当把内容拉到屏 ...
Java豆瓣电影爬虫——抓取电影详情和电影短评数据
一直想做个这样的爬虫:定制自己的种子,爬取想要的数据,做点力所能及的小分析.正好,这段时间宝宝出生,一边陪宝宝和宝妈,一边把自己做的这个豆瓣电影爬虫的数据采集部分跑起来.现在做一个概要的介绍和演示. ...

随机推荐

RabbitMQ的三大交换器
pom文件都是相同的 <?xml version="1.0" encoding="UTF-8"?> <project xmlns=" ...
JavaScript基础4
数组创建数组 A.通过构造函数创建数组 * a): var arr=new Array();//定义一个空数组,无长度的空数组. * b):var arr1=new Array(num); * 当 ...
openlayers4 入门开发系列结合 echarts4 实现交通线流动图
前言 openlayers4 官网的 api 文档介绍地址 openlayers4 api,里面详细的介绍 openlayers4 各个类的介绍,还有就是在线例子:openlayers4 官网在线例子 ...
第3节：Java基础 - 必知必会（上）
第3节:Java基础 - 必知必会(上) 本篇是基础篇的第一小节,我们从最基础的java知识点开始学习.本节涉及的知识点包括面向对象的三大特征:封装,继承和多态,并且对常见且容易混淆的重要概念覆盖和重 ...
2019CCPC秦皇岛 F Forest Program
队友过的:https://blog.csdn.net/liufengwei1/article/details/101632506 Forest Program Time Limit: 2000/100 ...
洛谷题解 P1287 【盒子与球】
题解:P1287 盒子与球不了解的:stirling数(斯特林数) - 百度百科分析如下: 设有n个不同的球,分别用b1,b2,--bn表示.从中取出一个球bn,bn的放法有以下两种: 1) bn ...
shell脚本调用python模块
python helloworld.py代码为 # coding:utf-8 from __future__ import print_function import sys print(sys.pa ...
imagenet-vgg-verydeep-19.mat格式详解
.mat是matlab生成的文件.用matlab打开文件imagenet-vgg-verydeep-19.mat可以帮助理解其结构.matlab代码如下: a = open('D:\imagenet- ...
So Easy - 在Linux服务器上部署 .NET Core App
.NET Core 是微软提供的免费.跨平台和开源的开发框架,可以构建桌面应用程序.移动端应用程序.网络应用程序.物联网应用程序和游戏应用程序等.如果你是 Windows 平台下的 dotnet 开发 ...
Java基础接口和抽象类区别（二）
抽象类在了解抽象类之前,先来了解一下抽象方法.抽象方法是一种特殊的方法:它只有声明,而没有具体的实现.抽象方法的声明格式为: 抽象方法必须用abstract关键字进行修饰.如果一个类含有抽象方法,则 ...

java使用htmlunit工具抓取js中加载的数据

java使用htmlunit工具抓取js中加载的数据的更多相关文章

随机推荐

热门专题