小记---------网页之htmlunit

HtmlUnit是一款开元的Java页面分析工具，可以有效的使用htmlunit分析页面大汉的内容，项目可以模拟浏览器运行，被誉为Java浏览器的开元实现，这个没有界面的浏览器

API的使用

模拟特定浏览器

例： WebClient webClient=new WebClient(BrowserVersion.FIREFOX_3); //模拟火狐浏览器

查找特定元素

通过get方法获取

HtmlPage page=WebClient.getPage("网址"); //获取到网页源代码

HtmlDivision div=(HtmlDivision)page.getElementById("hed"); //获取id属性值为hed的元素。

通过Xpath获取、

HtmlDivision div=(HtmlDivision)page.getByXPath("//div").get(0);

System.out.println(div.asXml()); //输出代码

代理服务器的配置

代理配置很简单，只需要配置好地址，端口，用户名与密码即可

例：//创建对象

WebClient webClient=new WebClient(BrowserVersion.CHROME,"http://127.0.0.1",8087); //模拟浏览器，代理IP地址端口号

DefaultCredentialsProvider credentialsProvider=webClient.getCredentialsProvider();

//设置用户名密码 credentialsProvider.addCredentials(“username”,“password”);

小记---------网页之htmlunit的更多相关文章

小记---------网页采集之selenium
1.元素定位 ID定位元素: findElement(By.id(“”)); 通过元素的名称定位元素: findElement(By.name(“”)); 通过元素的html中的位置定位元素 ...
小记---------网页采集之Jsoup
Jsoup是一款Java解析器,相当于httpClient解析器功能:①:从一个URL,文件或字符串中解析HTML ②:使用DOM或CSS选择器来查找.取出数据 ...
HTMLUnit web测试
httpClient不能动态执行网页中的js,这样无法获取js生成的动态网页.htmlUnit是个解决方法. if you’re considering web application testing ...
[转载]爬虫的自我解剖(抓取网页HtmlUnit)
网络爬虫第一个要面临的问题,就是如何抓取网页,抓取其实很容易,没你想的那么复杂,一个开源HtmlUnit包,4行代码就OK啦,例子如下: 1 2 3 4 final WebClient webClie ...
使用htmlunit在线解析网页信息
前言最近工作上遇到一个问题,后端有一个定时任务,需要用JAVA每天判断法定节假日.周末放假,上班等情况, 其实想单独通过逻辑什么的去判断中国法定节假日的放假情况,基本不可能,因为国家每一年的假期可能 ...
爬虫的自我解剖(抓取网页HtmlUnit)
网络爬虫第一个要面临的问题,就是如何抓取网页,抓取其实很容易,没你想的那么复杂,一个开源`HtmlUnit`包,4行代码就OK啦,例子如下: final WebClient webClient=new ...
基于HtmlUnit的模板的网页数据抽取
既然方向定了,就开始做实验室吧,做舆情分析,首先就是要收集相关的语料正好实验室有同学在做标化院的信息抽取抽取这块于是把程序拿过来研究研究正好完整程序在126邮箱共享: 可下载数:20 共享连接 ...
Selenium/HtmlUnit设置代理获取JS生成的网页
通常我们使用Java提供的HttpURLConnection或者Apache的HttpClient获取的网页源代码都是直观可见的,其代码的内容和通过浏览器右键网页->点击查看网页源代码的内容一致 ...
htmlunit抓取js执行后的网页源码
上次我不是写了一个自动抓取博客访问量吗 (点击打开链接) 可是昨天晚上我又运行的时候,发现不能用了.. 运行了几次发现使用URLConnection 得到的网页源码和浏览器直接查看的不同. URLC ...

随机推荐

linux运维、架构之路-K8s健康检查Health Check
一.Health Check介绍强大的自愈能力是k8s容器编排引擎一个重要特性,自愈能力的默认实现方式为自动重启发生故障的容器,另外还可以利用Liveness和Readiness探测 ...
自定义 Swiper 的pageControl
.part5-bg .swiper2 .swiper-pagination2{ bottom: 0.4rem; } /*未选中的小圆点样式*/ .part5-bg .swiper2 .swiper-p ...
HTML+CSS之光标悬停图片翻转效果
设计思路: 首先做一个包括图片和说明文字的简单的页面结构,然后再设置它的变换.将变换的元素,即照片和文字放在一个父容器里面,这就需要四个父容器 ,再将这四个父容器放在最外层的舞台上面进 ...
rgb三基色与rgba
主要解释什么是三基色和RGBA ㈠三基色含义三基色是指红,绿,蓝三色,人眼对红.绿.蓝最为敏感,大多数的颜色可以通过红.绿.蓝三色按照不同的比例合成产生. ㈡三基色原理 ⑴自然界中的绝大部分彩色,都 ...
Spring 动态多数据源
spring springmvc mybatis 多数据源配置时的重点: 1. 注意事务拦截器的配置 Spring中的事务管理与数据源是绑定的,一旦程序执行到Service层(事务管理)的话,由于在进 ...
C# 桌面截屏添加鼠标
#region 第一种方法 [DllImport("user32.dll")] static extern bool GetCursorInfo(out CURSORINFO pc ...
文件操作：fopen()
r 打开只读文件,该文件必须存在. r+ 打开可读写的文件,该文件必须存在. rb+ 读写打开一个二进制文件,只允许读写数据. rt+ 读写打开一个文本文件,允许读和写. w 打开只写文件, ...
51nod 1402 最大值（贪心）
原题链接:http://www.51nod.com/onlineJudge/questionCode.html#!problemId=1402 思路:借鉴了这篇博文http://blog.csdn.n ...
codefroces Round #201.a--Difference Row
Time Limit:2000MS Memory Limit:262144KB 64bit IO Format:%I64d & %I64u Description You wa ...
mybatis plus 报错 org.apache.ibatis.binding.BindingException: Invalid bound statement (not found)
org.apache.ibatis.binding.BindingException: Invalid bound statement (not found) 少了个范型

小记---------网页之htmlunit

小记---------网页之htmlunit的更多相关文章

随机推荐

热门专题