HtmlUnit+Jsoup 解决爬虫无法解析执行javascript的问题

本人最近在研究爬虫。作为一个新手。研究了些爬虫框架，发现所有开源的爬虫框架很多，功能也很齐全，但唯独遗憾的是，目前还没有发现那个爬虫对js完美的解释并执行。看了浅谈网络爬虫爬js动态加载网页（二）之后很有感慨，首先对博主的钻研精神季度敬佩。虽然该文中第二和第三种方案不怎么靠谱，但能想到这些方案，说明博主的思维发散性很强，不会局限于单方向钻牛角尖式的思考。不过很遗憾，因为我就是这样的人。我始终觉得博主对于HtmlUnit的了解不够深入（也可能是我的误解）。于是就开始钻牛角尖了。看了HtmlUnit的简介之后，我有一种预感，认为HtmlUnit没理由不能支持Js的自动解释于执行，事实证明了我的想法。废话多说无益，

这里拿地址【http://cq.qq.com/baoliao/detail.htm?294064】来测试，通过查看该页面源码，可以发现，该页面文章标题，内容，浏览量都是采用占位符的形式，在页面加载时，通过js替换之，下面代码获取该文章浏览量字段。

public void testCrawler() throws Exception {

        /**HtmlUnit请求web页面*/

        WebClient wc = new WebClient();

        wc.getOptions().setJavaScriptEnabled(true); //启用JS解释器，默认为true

        wc.getOptions().setCssEnabled(false); //禁用css支持

        wc.getOptions().setThrowExceptionOnScriptError(false); //js运行错误时，是否抛出异常

        wc.getOptions().setTimeout(10000); //设置连接超时时间 ，这里是10S。如果为0，则无限期等待

        HtmlPage page = wc.getPage("http://cq.qq.com/baoliao/detail.htm?294064");

        String pageXml = page.asXml(); //以xml的形式获取响应文本  

        /**jsoup解析文档*/

        Document doc = Jsoup.parse(pageXml, "http://cq.qq.com");

        Element pv = doc.select("#feed_content span").get(1);

        System.out.println(pv.text());

        Assert.assertTrue(pv.text().contains("浏览"));  

        System.out.println("Thank God!");

    }

附上maven配置：

<dependency>

<!-- jsoup HTML parser library @ http://jsoup.org/ -->

<groupId>org.jsoup</groupId>

<artifactId>jsoup</artifactId>

<version>1.7.2</version>

</dependency>

<dependency>

<groupId>net.sourceforge.htmlunit</groupId>

<artifactId>htmlunit</artifactId>

<version>2.13</version>

</dependency>

更多信息请查看个人博客：http://www.iamcoder.net

HtmlUnit+Jsoup 解决爬虫无法解析执行javascript的问题的更多相关文章

JQuery html API支持解析执行Javascript脚本功能实现-代码分析
JQuery html用法(功能类似innerHTML) 开发中需要使用Ajax技术来更新页面局部区域, 使用的方法是ajax获取html代码段(字符串),然后将这个html代码段作为参数,传入目标D ...
Jsoup -- 网络爬虫解析器
需要下载jsoup-1.8.1.jar包 jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址.HTML文本内容.它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQue ...
Python爬虫(二十四)_selenium案例：执行javascript脚本
本章叫介绍如何使用selenium在浏览器中使用js脚本,更多内容请参考:Python学习指南隐藏百度图片 #-*- coding:utf-8 -*- #本篇将模拟执行javascript语句 fr ...
爬虫之动态HTML处理（Selenium与PhantomJS ）执行 JavaScript 语句
执行 JavaScript 语句 1.隐藏百度图片 from selenium import webdriverimport time driver = webdriver.PhantomJS()dr ...
python中执行javascript代码
python中执行javascript代码: 1.安装相应的库,我使用的是PyV8 2.import PyV8 ctxt = PyV8.JSContext() ctxt.enter() ...
Java执行JavaScript脚本破解encodeInp()加密
一:背景在模拟登录某网站时遇到了用户名和密码被JS进行加密提交的问题,如图: 二:解决方法 1.我们首先需要获得该JS加密函数,一般如下: conwork.js var keyStr = " ...
【JAVA系列】Google爬虫如何抓取JavaScript的？
公众号:SAP Technical 本文作者:matinal 原文出处:http://www.cnblogs.com/SAPmatinal/ 原文链接:[JAVA系列]Google爬虫如何抓取Java ...
解决域名DNS解析的故障
在实际应用过程中可能会遇到DNS解析错误的问题,就是说当我们访问一个域名时无法完成将其解析到IP地址的工作,而直接输入网站IP却可以正常访问,这就是因为DNS解析出现故障造成的.这个现象发生的机率比较 ...
fedora环境安装webkit支持作爬虫下载解析JS
环境: 我使用的fedora19.1-xfce版本,属于redhat系的桌面环境. 1.安装 webkit源码安装webkit失败,这里提供的是yum安装方式. a.查看当前yum库中的webkit资 ...

随机推荐

PhpStorm 10.0 激活方式
随着 JetBrains 新版本的发布,注册机已然不行了.然而,道高一尺,魔高一丈.IntelliJ IDEA开源社区提供了如下通用激活方法:注册时选择License server填写http:// ...
cmd dos 下无法显示中文
在做程序开发的时候经常需要在使用命令行进行操作, dos环境本身是不支持中文的,有时候中文编码的问题就像苍蝇一样讨厌,下面提供几种常用的手段解决win7环境下中文显示乱码的问题: 方法一: 修改注册表 ...
mysql 主从实现
主库:192.168.1.19 从库:192.168.1.20 开启db_test单库复制常见问题参考文档主配置以mysql root用户登录,用下面sql创建专门用于主从复制的mysql用 ...
第一次当Uber司机，就拉到漂亮妹纸
黑马哥的Uber司机端装上很久了,一次活儿也没拉,心里一直有一种当“张师傅”的冲动.黑马哥当Uber司机,肯定不是为了图挣钱,也不是因为Uber有“新约炮神器”的称号,能通过“拉活”来泡妹纸.黑马哥体 ...
java设计模式（二）单例模式建造者模式
(三)单例模式单例模式应该是最常见的设计模式,作用是保证在JVM中,该对象仅仅有一个实例存在. 长处:1.降低某些创建比較频繁的或者比較大型的对象的系统开销. 2.省去了new操作符,减少系统内存使 ...
Android 怎样在linux kernel 中读写文件
前言欢迎大家我分享和推荐好用的代码段~~ 声明欢迎转载,但请保留文章原始出处: CSDN:http://www.csdn.net ...
opengl模板缓冲区
相信大家有些人对opengl的模板缓冲区不是很理解,包括我最开始也是,opengl的模板缓冲区其实就是采用过滤的技术来控制那些颜色可以绘制,那些不能进行绘制.这里的过滤技术也就是我们的一个控制方法,主 ...
linux c 通过文件描写叙述符获取文件名称
在linux中每一个被打开的文件都会在/proc/self/fd/文件夹中有记录,当中(/proc/self/fd/文件描写叙述符号:这个文件是符号文件)的文件就是文件描写叙述符所相应的文件. 而re ...
c语言中-----分配内存函数
原型: void * realloc(void *p, size_t size); realloc 可以对给定的指针所指的空间进行扩大或者缩小, 原有内存的数据保持不变.当然,对于缩小,则缩小部 ...
BootStrap 智能表单系列五表单依赖插件处理
这一章比较简单哦,主要就是生产表单元素后的一些后续处理操作,比如日期插件的渲染.一些autocomplete的处理等,在回调里面处理就可以了, demo: $("input.date-pic ...

HtmlUnit+Jsoup 解决爬虫无法解析执行javascript的问题

HtmlUnit+Jsoup 解决爬虫无法解析执行javascript的问题的更多相关文章

随机推荐

热门专题