htmlunit与Jsoup

//这个函数的目的是在获取页面的同时，也获取链接对应的cookie
public static HtmlPage getCookieAndHtml(String url)throws IOException{
   URL link=new URL(url);
   WebClient wc=new WebClient();
   WebRequest request=new WebRequest(link);
   wc.getCookieManager().setCookiesEnabled(true);//开启cookie管理
   wc.getOptions().setJavaScriptEnabled(true);//开启js解析。对于变态网页，这个是必须的
   wc.getOptions().setCssEnabled(true);//开启css解析。对于变态网页，这个是必须的。
   HtmlPage page = wc.getPage(request);
   CookieManager CM = wc.getCookieManager(); //WC = Your WebClient's name
   ThreeExecute.cookie = CM.getCookies();//返回的Cookie在这里，下次请求的时候可能可以用上啦。这里的cookie是ThreeExecute这个类中的全局静态变量，类型为Set<Cookie>
   wc.close();
   return page;
}

//调用

public static HtmlPage getHtml1(String url, Set<Cookie> cookies)throws IOException{
   URL link =new URL(url);
   final WebClient webClient = new WebClient();
   WebRequest request = new WebRequest(link);
   webClient.getOptions().setCssEnabled(false);
   webClient.getOptions().setJavaScriptEnabled(true);
   webClient.getOptions().setThrowExceptionOnScriptError(true);
   Iterator<Cookie> it = cookies.iterator();
   while (it.hasNext()) {
      webClient.getCookieManager().addCookie(it.next());
   }
   final HtmlPage page = webClient.getPage(request);
   webClient.close();
   return page;
}

Jsoup在爬取数据需要用到Cookie时的操作就很简单

Map<String, String> cookies = null;
Response res = Jsoup.connect("http://www.chengmi.com/shanghai").timeout(30000).execute();
cookies = res.cookies();

Document doc = null;
doc = Jsoup.connect(url).cookies(cookies).timeout(30000).get();

htmlunit与Jsoup的更多相关文章

爬虫任务二：爬取(用到htmlunit和jsoup)通过百度搜索引擎关键字搜取到的新闻标题和url，并保存在本地文件中（主体借鉴了网上的资料）
采用maven工程,免着到处找依赖jar包 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi=&quo ...
采集baidu搜索信息的java源代码实现（大部分转发，少量自己修改）（使用了htmlunit和Jsoup）(转发：https://blog.csdn.net/zhaohang_1/article/details/44731039)
1.maven依赖 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www ...
开源的49款Java 网络爬虫软件
参考地址搜索引擎 Nutch Nutch 是一个开源Java 实现的搜索引擎.它提供了我们运行自己的搜索引擎所需的全部工具.包括全文搜索和Web爬虫. Nutch的创始人是Doug Cutting, ...
【转】44款Java 网络爬虫开源软件
原帖地址 http://www.oschina.net/project/lang/19?tag=64&sort=time 极简网络爬虫组件 WebFetch WebFetch 是无依赖极简网页 ...
开源蜘蛛集合（转自haizhiguang博客，链接：http://blog.csdn.net/haizhiguang/article/details/20209573）
各种蜘蛛: Heritrix 点击次数:1458 Heritrix是一个开源,可扩展的web爬虫项目.Heritrix设计成严格按照robots.txt文件的排除指示和META robots标签. ...
HtmlUnit+Jsoup 解决爬虫无法解析执行javascript的问题
本人最近在研究爬虫.作为一个新手.研究了些爬虫框架,发现所有开源的爬虫框架很多,功能也很齐全,但唯独遗憾的是,目前还没有发现那个爬虫对js完美的解释并执行.看了浅谈网络爬虫爬js动态加载网页(二)之后 ...
Java 实现 HttpClients+jsoup，Jsoup，htmlunit，Headless Chrome 爬虫抓取数据
最近整理一下手头上搞过的一些爬虫,有HttpClients+jsoup,Jsoup,htmlunit,HeadlessChrome 一,HttpClients+jsoup,这是第一代比较low,很快就 ...
Jsoup配合 htmlunit 爬取异步加载的网页
加入 jsoup 和 htmlunit 的依赖 <dependency> <groupId>org.jsoup</groupId> <artifactId&g ...
使用htmlunit在线解析网页信息
前言最近工作上遇到一个问题,后端有一个定时任务,需要用JAVA每天判断法定节假日.周末放假,上班等情况, 其实想单独通过逻辑什么的去判断中国法定节假日的放假情况,基本不可能,因为国家每一年的假期可能 ...

随机推荐

[转]maven中scope详解
在POM 4中,<dependency>中还引入了<scope>,它主要管理依赖的部署.目前<scope>可以使用5个值: * compile,缺省值,适用于所有阶 ...
【MAC】图片编辑工具-合成图片
MAC中和wIn环境中画图一样的工具,可以对图片进行编辑 step1: step2: step3: 从工具栏中选择你要使用的工具,进行对应的操作. step4: 合成图片: 效果如图:
集合（Java总结一）
一.Queue 一个队列就是一个先入先出(FIFO)的数据结构 1.没有实现的阻塞接口的LinkedList: 实现了java.util.Queue接口和java.util.AbstractQueue ...
Django测试环境环境配置
安装Django 在cmd的管理者模式下进入Python的安装目录敲入命令:pip install Django -看到如下的信息表示成功如果你在运行其它人写的Django系统时出现以下错误信息, ...
Python中转换角度为弧度的radians()方法
Python中转换角度为弧度的radians()方法这篇文章主要介绍了Python中转换角度为弧度的radians()方法,是Python入门中的基础知识,需要的朋友可以参考下 radians()方 ...
vtkExampleWarpVector和vtkWarpScalar
vtkWarpVector : deform geometry with vector data vtkWarpVector is a filter that modifies point coord ...
【HANA系列】SAP HANA跟我学HANA系列之创建分析视图一
公众号:SAP Technical 本文作者:matinal 原文出处:http://www.cnblogs.com/SAPmatinal/ 原文链接:[HANA系列]SAP HANA跟我学HANA系 ...
PEP8-python编码规范(上)
包含主要 Python 发行版中的标准库的 Python 代码的编码约定. 1.代码缩进 (1)每个缩进需要使用 4 个空格.一般使用一个Tab键. Python 3 不允许混合使用制表符和空格来缩进 ...
【Qt开发】QString与数字类型的转换（不同进制）
把QString转换为 double类型方法1.QString str="123.45"; double val=str.toDouble(); //val=123.45 方法2 ...
【VS开发】设置文档标题
[注意]我们注意到我们的文档的创建的时候我们会发现系统会去调用Doc类中的OnNewDocument函数,这里我们知道他是一个虚函数,我们可以在这里设置我们的文档的标题. 代码如下: BOOL CGr ...

htmlunit与Jsoup

htmlunit与Jsoup的更多相关文章

随机推荐

热门专题