HtmlParser基础教程

1、相关资料

官方文档：http://htmlparser.sourceforge.net/samples.html

API：http://htmlparser.sourceforge.net/javadoc/index.html

其它HTML 解释器：jsoup等。由于HtmlParser自2006年以后就再没更新，目前很多人推荐使用jsoup代替它。

2、使用HtmlPaser的关键步骤

（1）通过Parser类创建一个解释器

（2）创建Filter或者Visitor

（3）使用parser根据filter或者visitor来取得所有符合条件的节点

（4）对节点内容进行处理

3、使用Parser的构造函数创建解释器

Parser()

Zero argument constructor.

Parser(Lexer lexer)

Construct a parser using the provided lexer.

Parser(Lexer lexer, ParserFeedback fb)

Construct a parser using the provided lexer and feedback object.

Parser(String resource)

Creates a Parser object with the location of the resource (URL or file).

Parser(String resource, ParserFeedback feedback)

Creates a Parser object with the location of the resource (URL or file) You would typically create a DefaultHTMLParserFeedback object and pass it in.

Parser(URLConnection connection)

Construct a parser using the provided URLConnection.

Parser(URLConnection connection, ParserFeedback fb)

Constructor for custom HTTP access.

对于大多数使用者来说，使用最多的是通过一个URLConnection或者一个保存有网页内容的字符串来初始化Parser，或者使用静态函数来生成一个Parser对象。ParserFeedback的代码很简单，是针对调试和跟踪分析过程的，一般不需要改变。而使用Lexer则是一个相对比较高级的话题，放到以后再讨论吧。

这里比较有趣的一点是，如果需要设置页面的编码方式的话，不使用Lexer就只有静态函数一个方法了。对于大多数中文页面来说，好像这是应该用得比较多的一个方法。

4、HtmlPaser使用Node对象保存各节点信息

（1）访问各个节点的方法

Node getParent ()：取得父节点

NodeList getChildren ()：取得子节点的列表

Node getFirstChild ()：取得第一个子节点

Node getLastChild ()：取得最后一个子节点

Node getPreviousSibling ()：取得前一个兄弟（不好意思，英文是兄弟姐妹，直译太麻烦而且不符合习惯，对不起女同胞了）

Node getNextSibling ()：取得下一个兄弟节点

（2）取得Node内容的函数

String getText ()：取得文本

String toPlainTextString()：取得纯文本信息。

String toHtml () ：取得HTML信息（原始HTML）

String toHtml (boolean verbatim)：取得HTML信息（原始HTML）

String toString ()：取得字符串信息（原始HTML）

Page getPage ()：取得这个Node对应的Page对象

int getStartPosition ()：取得这个Node在HTML页面中的起始位置

int getEndPosition ()：取得这个Node在HTML页面中的结束位置

5、使用Filter访问Node节点及其内容

（1）Filter的种类

顾名思义，Filter就是对于结果进行过滤，取得需要的内容。

所有的Filter均实现了NodeFilter接口，此接口只有一个方法Boolean accept(Node node)，用于确定某个节点是否属于此Filter过滤的范围。

HTMLParser在org.htmlparser.filters包之内一共定义了16个不同的Filter，也可以分为几类。

判断类Filter：

TagNameFilter

HasAttributeFilter

HasChildFilter

HasParentFilter

HasSiblingFilter

IsEqualFilter

逻辑运算Filter：

AndFilter

NotFilter

OrFilter

XorFilter

其他Filter：

NodeClassFilter

StringFilter

LinkStringFilter

LinkRegexFilter

RegexFilter

CssSelectorNodeFilter

除此以外，可以自定义一些Filter，用于完成特殊需求的过滤。

（2）Filter的使用示例

以下示例用于提取HTML文件中的链接

[java] view
plain copy

package org.ljh.search.html;
import java.util.HashSet;
import java.util.Set;
import org.htmlparser.Node;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.filters.NodeClassFilter;
import org.htmlparser.filters.OrFilter;
import org.htmlparser.tags.LinkTag;
import org.htmlparser.util.NodeList;
import org.htmlparser.util.ParserException;
//本类创建用于HTML文件解释工具
public class HtmlParserTool {
// 本方法用于提取某个html文档中内嵌的链接
public static Set<String> extractLinks(String url, LinkFilter filter) {
Set<String> links = new HashSet<String>();
try {
// 1、构造一个Parser，并设置相关的属性
Parser parser = new Parser(url);
parser.setEncoding("gb2312");
// 2.1、自定义一个Filter，用于过滤<Frame >标签，然后取得标签中的src属性值
NodeFilter frameNodeFilter = new NodeFilter() {
@Override
public boolean accept(Node node) {
if (node.getText().startsWith("frame src=")) {
return true;
} else {
return false;
}
}
};
//2.2、创建第二个Filter，过滤<a>标签
NodeFilter aNodeFilter = new NodeClassFilter(LinkTag.class);
//2.3、净土上述2个Filter形成一个组合逻辑Filter。
OrFilter linkFilter = new OrFilter(frameNodeFilter, aNodeFilter);
//3、使用parser根据filter来取得所有符合条件的节点
NodeList nodeList = parser.extractAllNodesThatMatch(linkFilter);
//4、对取得的Node进行处理
for(int i = 0; i<nodeList.size();i++){
Node node = nodeList.elementAt(i);
String linkURL = "";
//如果链接类型为<a />
if(node instanceof LinkTag){
LinkTag link = (LinkTag)node;
linkURL= link.getLink();
}else{
//如果类型为<frame />
String nodeText = node.getText();
int beginPosition = nodeText.indexOf("src=");
nodeText = nodeText.substring(beginPosition);
int endPosition = nodeText.indexOf(" ");
if(endPosition == -1){
endPosition = nodeText.indexOf(">");
}
linkURL = nodeText.substring(5, endPosition - 1);
}
//判断是否属于本次搜索范围的url
if(filter.accept(linkURL)){
links.add(linkURL);
}
}
} catch (ParserException e) {
e.printStackTrace();
}
return links;
}
}

程序中的一些说明：

（1）通过Node#getText()取得节点的String。

（2）node instanceof TagLink，即<a/>节点，其它还有很多的类似节点，如tableTag等，基本上每个常见的html标签均会对应一个tag。官方文档说明如下：

org.htmlparser.nodes	The nodes package has the concrete node implementations.
org.htmlparser.tags	The tags package contains specific tags.

因此可以通过此方法直接判断一个节点是否某个标签内容。

其中用到的LinkFilter接口定义如下：

[java] view
plain copy

package org.ljh.search.html;
//本接口所定义的过滤器，用于判断url是否属于本次搜索范围。
public interface LinkFilter {
public boolean accept(String url);
}

测试程序如下：

[java] view
plain copy

package org.ljh.search.html;
import java.util.Iterator;
import java.util.Set;
import org.junit.Test;
public class HtmlParserToolTest {
@Test
public void testExtractLinks() {
String url = "http://www.baidu.com";
LinkFilter linkFilter = new LinkFilter(){
@Override
public boolean accept(String url) {
if(url.contains("baidu")){
return true;
}else{
return false;
}
}
};
Set<String> urlSet = HtmlParserTool.extractLinks(url, linkFilter);
Iterator<String> it = urlSet.iterator();
while(it.hasNext()){
System.out.println(it.next());
}
}
}

输出结果如下：

http://www.hao123.com

http://www.baidu.com/

http://www.baidu.com/duty/

http://v.baidu.com/v?ct=301989888&rn=20&pn=0&db=0&s=25&word=

http://music.baidu.com

http://ir.baidu.com

http://www.baidu.com/gaoji/preferences.html

http://news.baidu.com

http://map.baidu.com

http://music.baidu.com/search?fr=ps&key=

http://image.baidu.com

http://zhidao.baidu.com

http://image.baidu.com/i?tn=baiduimage&ct=201326592&lm=-1&cl=2&nc=1&word=

http://www.baidu.com/more/

http://shouji.baidu.com/baidusearch/mobisearch.html?ref=pcjg&from=1000139w

http://wenku.baidu.com

http://news.baidu.com/ns?cl=2&rn=20&tn=news&word=

https://passport.baidu.com/v2/?login&tpl=mn&u=http%3A%2F%2Fwww.baidu.com%2F

http://www.baidu.com/cache/sethelp/index.html

http://zhidao.baidu.com/q?ct=17&pn=0&tn=ikaslist&rn=10&word=&fr=wwwt

http://tieba.baidu.com/f?kw=&fr=wwwt

http://home.baidu.com

https://passport.baidu.com/v2/?reg&regType=1&tpl=mn&u=http%3A%2F%2Fwww.baidu.com%2F

http://v.baidu.com

http://e.baidu.com/?refer=888

;

http://tieba.baidu.com

http://baike.baidu.com

http://wenku.baidu.com/search?word=&lm=0&od=0

http://top.baidu.com

http://map.baidu.com/m?word=&fr=ps01000

HtmlParser基础教程的更多相关文章

HtmlParser基础教程分类： C_OHTERS 2014-05-22 11:33 1649人阅读评论(1) 收藏
1.相关资料官方文档:http://htmlparser.sourceforge.net/samples.html API:http://htmlparser.sourceforge.net/jav ...
matlab基础教程——根据Andrew Ng的machine learning整理
matlab基础教程--根据Andrew Ng的machine learning整理基本运算算数运算逻辑运算格式化输出小数位全局修改向量和矩阵运算矩阵操作申明一个矩阵或向量快速建立一 ...
<<Bootstrap基础教程>> 新书出手,有心栽花花不开,无心插柳柳成荫
并非闲的蛋疼,做技术也经常喜欢蛋疼,纠结于各种技术,各种需求变更,还有一个很苦恼的就是UI总是那么不尽人意.前不久自己开源了自己做了多年的仓储项目(开源地址:https://github.com/he ...
Memcache教程 Memcache零基础教程
Memcache是什么 Memcache是danga.com的一个项目,来分担数据库的压力. 它可以应对任意多个连接,使用非阻塞的网络IO.由于它的工作机制是在内存中开辟一块空间,然后建立一个Hash ...
Selenium IDE 基础教程
Selenium IDE 基础教程 1.下载安装 a 在火狐浏览其中搜索附件组件,查找 Selenium IDE b 下载安装,然后重启firefox 2.界面讲解在菜单- ...
html快速入门（基础教程+资源推荐）
1.html究竟是什么? 从字面上理解,html是超文本标记语言hyper text mark-up language的首字母缩写,指的是一种通用web页面描述语言,是用来描述我们打开浏览器就能看到的 ...
转发-UI基础教程 – 原生App切图的那些事儿
UI基础教程 – 原生App切图的那些事儿转发:http://www.shejidaren.com/app-ui-cut-and-slice.html 移动APP切图是UI设计必须学会的一项技能,切 ...
【Unity3D基础教程】给初学者看的Unity教程（四）：通过制作Flappy Bird了解Native 2D中的RigidBody2D和Collider2D
作者:王选易,出处:http://www.cnblogs.com/neverdie/ 欢迎转载,也请保留这段声明.如果你喜欢这篇文章,请点[推荐].谢谢! 引子在第一篇文章[Unity3D基础教程] ...
oracle基础教程（8）oracle修改字符集
oracle基础教程(8)oracle修改字符集 1.用dba连接数据库 -->sqlplus / as sysdba 2.查看字符集 -->SELECT parameter, value ...

随机推荐

GSS2-Can you answer these queries II
---恢复内容开始--- 这道题真的是非常恶心,看题解看了半天才弄懂,而且题解上说的相当简略. 此题大意是询问去掉重复元素的最大子区间和,没有修改操作. 没有修改操作,这样就可以离线处理了. 这道题有 ...
[C++程序设计]有默认参数的函数
实参与形参的结合是从左至右顺序进行的.因此指定默认值的参数必须放在形参表列中的最右端,否则出错.例如: void f1(float a,int b=0,int c,char d=′a′); //不正 ...
50个必备的实用jQuery代码段+ 可以直接拿来用的15个jQuery代码片段
50个必备的实用jQuery代码段+ 可以直接拿来用的15个jQuery代码片段本文会给你们展示50个jquery代码片段,这些代码能够给你的javascript项目提供帮助.其中的一些代码段是从j ...
Red and Black(poj 1979 bfs)
Red and Black Time Limit: 1000MS Memory Limit: 30000K Total Submissions: 27891 Accepted: 15142 D ...
MySQL--连接属性
The capability flags are used by the client and server to indicate which features they support and w ...
php设置和获取变量类型
1. 获取变量类型 gettype($a); 2. 设置变量类型 settype($a,'int'); 3. 测试函数 is_array();是否数组 is_string();是否字符串 is_obj ...
Keil C51 中指针的使用
指针是C语言中比较难的一个内容,Keil C51在指针方面有和标准C不一样的地方,今天看了一些资料学习了一下Keil C51 中指针的使用. keil51的指针,包含两种指针:普通指针,兼容标准C:内 ...
【转】怎么刷入BOOT.IMG(刷机后开机卡在第一屏的童鞋请注意)-------不错不错
原文网址:http://bbs.gfan.com/android-3440837-1-1.html 之前呢,有好多机油问我关于刷机卡屏的问题,我解答了好多,但一一解答太费事了,在这里给大家发个贴吧.其 ...
UESTC_树上的距离 2015 UESTC Training for Graph Theory<Problem E>
E - 树上的距离 Time Limit: 2000/1000MS (Java/Others) Memory Limit: 262143/262143KB (Java/Others) Subm ...
Merge Two Sorted Lists 解答
Question Merge two sorted linked lists and return it as a new list. The new list should be made by s ...

HtmlParser基础教程

HtmlParser基础教程的更多相关文章

随机推荐

热门专题