HtmlParser

HtmlParser 基本类库使用

HtmlParser 提供了强大的类库来处理 Internet 上的网页，可以实现对网页特定内容的提取和修改。下面通过几个例子来介绍 HtmlParser 的一些使用。这些例子其中的代码，有部分用在了后面介绍的简易爬虫中。以下所有的代码和方法都在在类 HtmlParser.Test.java 里，这是笔者编写的一个用来测试 HtmlParser 用法的类。

迭代遍历网页所有节点

网页是一个半结构化的嵌套文本文件，有类似 XML 文件的树形嵌套结构。使用HtmlParser 可以让我们轻易的迭代遍历网页的所有节点。清单 1 展示了如何来实现这个功能。

清单 1

// 循环访问所有节点，输出包含关键字的值节点

	public static void extractKeyWordText(String url, String keyword) {

		try {

            //生成一个解析器对象，用网页的 url 作为参数

			Parser parser = new Parser(url);

			//设置网页的编码,这里只是请求了一个 gb2312 编码网页

			parser.setEncoding("gb2312");

			//迭代所有节点, null 表示不使用 NodeFilter

			NodeList list = parser.parse(null);

            //从初始的节点列表跌倒所有的节点

			processNodeList(list, keyword);

		} catch (ParserException e) {

			e.printStackTrace();

		}

	}

	private static void processNodeList(NodeList list, String keyword) {

		//迭代开始

		SimpleNodeIterator iterator = list.elements();

		while (iterator.hasMoreNodes()) {

			Node node = iterator.nextNode();

			//得到该节点的子节点列表

			NodeList childList = node.getChildren();

			//孩子节点为空，说明是值节点

			if (null == childList)

			{

				//得到值节点的值

				String result = node.toPlainTextString();

				//若包含关键字，则简单打印出来文本

				if (result.indexOf(keyword) != -1)

					System.out.println(result);

			} //end if

			//孩子节点不为空，继续迭代该孩子节点

			else

			{

				processNodeList(childList, keyword);

			}//end else

		}//end wile

	}

上面的中有两个方法：

private static void processNodeList(NodeList list, String keyword)

该方法是用类似深度优先的方法来迭代遍历整个网页节点，将那些包含了某个关键字的值节点的值打印出来。

public static void extractKeyWordText(String url, String keyword)

该方法生成针对 String 类型的 url 变量代表的某个特定网页的解析器，调用 1中的方法实现简单的遍历。

清单 1 的代码展示了如何迭代所有的网页，更多的工作可以在此基础上展开。比如找到某个特定的网页内部节点，其实就可以在遍历所有的节点基础上来判断，看被迭代的节点是否满足特定的需要。

使用 NodeFilter

NodeFilter 是一个接口，任何一个自定义的 Filter 都需要实现这个接口中的 boolean accept() 方法。如果希望迭代网页节点的时候保留当前节点，则在节点条件满足的情况下返回 true；否则返回 false。HtmlParse 里提供了很多实现了 NodeFilter 接口的类，下面就一些笔者所用到的，以及常用的 Filter 做一些介绍：

对 Filter 做逻辑操作的 Fitler 有：AndFilter，NotFilter ，OrFilter，XorFilter。

这些 Filter 来组合不同的 Filter，形成满足两个 Filter 逻辑关系结果的 Filter。

判断节点的孩子，兄弟，以及父亲节点情况的 Filter 有：HasChildFilter HasParentFilter，HasSiblingFilter。
判断节点本身情况的 Filter 有 HasAttributeFilter：判读节点是否有特定属性；LinkStringFilter：判断节点是否是具有特定模式 (pattern) url 的节点；

TagNameFilter：判断节点是否具有特定的名字；NodeClassFilter：判读节点是否是某个 HtmlParser 定义好的 Tag 类型。在 org.htmlparser.tags 包下有对应 Html标签的各种 Tag，例如 LinkTag，ImgeTag 等。

还有其他的一些 Filter 在这里不一一列举了，可以在 org.htmlparser.filters 下找到。

清单 2 展示了如何使用上面提到过的一些 filter 来抽取网页中的 <a> 标签里的 href属性值，<img> 标签里的 src 属性值，以及 <frame> 标签里的 src 的属性值。

清单2

// 获取一个网页上所有的链接和图片链接

	public static void extracLinks(String url) {

		try {

			Parser parser = new Parser(url);

			parser.setEncoding("gb2312");

//过滤 <frame> 标签的 filter，用来提取 frame 标签里的 src 属性所、表示的链接

			NodeFilter frameFilter = new NodeFilter() {

				public boolean accept(Node node) {

					if (node.getText().startsWith("frame src=")) {

						return true;

					} else {

						return false;

					}

				}

			};

//OrFilter 来设置过滤 <a> 标签，<img> 标签和 <frame> 标签，三个标签是 or 的关系

	 OrFilte rorFilter = new OrFilter(new NodeClassFilter(LinkTag.class), new

NodeClassFilter(ImageTag.class));

	 OrFilter linkFilter = new OrFilter(orFilter, frameFilter);

	//得到所有经过过滤的标签

	NodeList list = parser.extractAllNodesThatMatch(linkFilter);

	for (int i = 0; i < list.size(); i++) {

		Node tag = list.elementAt(i);

		if (tag instanceof LinkTag)//<a> 标签

		{

			LinkTag link = (LinkTag) tag;

			String linkUrl = link.getLink();//url

			String text = link.getLinkText();//链接文字

			System.out.println(linkUrl + "**********" + text);

		}

		else if (tag instanceof ImageTag)//<img> 标签

		{

			ImageTag image = (ImageTag) list.elementAt(i);

			System.out.print(image.getImageURL() + "********");//图片地址

			System.out.println(image.getText());//图片文字

		}

		else//<frame> 标签

		{

//提取 frame 里 src 属性的链接如 <frame src="test.html"/>

			String frame = tag.getText();

			int start = frame.indexOf("src=");

			frame = frame.substring(start);

			int end = frame.indexOf(" ");

			if (end == -1)

				end = frame.indexOf(">");

			frame = frame.substring(5, end - 1);

			System.out.println(frame);

		}

	}

} catch (ParserException e) {

			e.printStackTrace();

}

}

简单强大的 StringBean

如果你想要网页中去掉所有的标签后剩下的文本，那就是用 StringBean 吧。以下简单的代码可以帮你解决这样的问题：

清单3

StringBean sb = new StringBean();

sb.setLinks(false);//设置结果中去点链接

sb.setURL(url);//设置你所需要滤掉网页标签的页面 url

System.out.println(sb.getStrings());//打印结果

HtmlParser 提供了强大的类库来处理网页。

HtmlParser的更多相关文章

HttpClient 与 HtmlParser 简介转载
转载地址:https://www.ibm.com/developerworks/cn/opensource/os-cn-crawler/ 本小结简单的介绍一下 HttpClinet 和 HtmlPar ...
HTMLParser使用
htmlparser[1] 是一个纯的java写的html(标准通用标记语言下的一个应用)解析的库,它不依赖于其它的java库文件,主要用于改造或提取html.它能超高速解析html,而且不会出错.现 ...
python--爬虫入门（八）体验HTMLParser解析网页，网页抓取解析整合练习
python系列均基于python3.4环境基本概念 html.parser的核心是HTMLParser类.工作的流程是:当你feed给它一个类似HTML格式的字符串时,它会调用goahead方法 ...
使用 HttpClient 和 HtmlParser 实现简易爬虫
这篇文章介绍了 HtmlParser 开源包和 HttpClient 开源包的使用,在此基础上实现了一个简易的网络爬虫 (Crawler),来说明如何使用 HtmlParser 根据需要处理 Inte ...
爬虫技术 -- 基础学习（四）HtmlParser基本认识
利用爬虫技术获取网页源代码后,针对网页抽取出它的特定文本内容,利用正则表达式和抽取工具,能够更好地抽取这些内容. 下面介绍一种抽取工具 -- HtmlParser HtmlParser是一个用来解析H ...
Delphi7的HtmlParser使用方法
uses HtmlParser procedure TForm4.Button1Click(Sender: TObject); var FNodes:IHtmlElement; aString:str ...
读代码之htmlParser
在以前使用HtmlParser时,并未考虑过遇到org.htmlparser.tags之外的Tag怎么处理.直到碰到这样的一个标签,如果不加处理,HtmlParser无法对其进行处理.查阅自定义标签之 ...
黄聪：C#解析HTML DOM解析类 HtmlParser.Net 下载
下载地址:HtmlParser.Net.rar 帮助文档:htmlparser.rar 背景: HTMLParser原本是一个在sourceforge上的一个Java开源项目,使用这个Java类库可以 ...
HtmlParser + HttpClient 实现爬虫
简易爬虫的实现 HttpClient 提供了便利的 HTTP 协议访问,使得我们可以很容易的得到某个网页的源码并保存在本地:HtmlParser 提供了如此简便灵巧的类库,可以从网页中便捷的提取出指向 ...

随机推荐

骑士问题(knight) (BFS)
题目描述在一个标准8×8的国际象棋棋盘上,棋盘中有些格子可能是有障碍物的.已知骑士的初始位置和目标位置,你的任务是计算出骑士最少需要多少步可以从初始位置到达目标位置.有障碍物的格子当然不可以到达. ...
【转】iOS开发拓展篇—静态库
原文网址:http://www.cnblogs.com/wendingding/p/3893095.html iOS开发拓展篇-静态库一.简单介绍 1.什么是库? 库是程序代码的集合,是共享程序代码 ...
MySQL 日志管理详解
大纲一.日志分类二.日志详解注:MySQL版本,Mysql-5.5.32(不同版本的mysql变量有所不同) 一.日志分类错误日志查询日志慢查询日志二进制日志中继日志事务日志滚动日 ...
Js文本溢出自动添加省略号ellipsis
原文: ellipsis: function(value, len, word) { //判断value有没有超过指定长度 if (value && v ...
windows7旗舰版激活密钥永久版免费分享
windows7之家不仅提供精品Win7教程给大家,加上这个windows7激活密匙还帮大家解决windows7系统激活问题,包括win7旗舰版 windows7安装版这些. 用的是Windows7 ...
PostgreSQL9.6新功能
PostgreSQL是世界上最先进的开源数据库,9.6最新版本由PostgreSQL全球开发者今天发布. 此版本将允许用户纵向扩展(scale-up)和横向扩展(scale-out)来提高数据库的查询 ...
asp.net系统过滤器、自定义过滤器
原文地址:http://www.cnblogs.com/kissdodog/archive/2013/05/21/3090513.html 一.系统过滤器使用说明 1.OutputCache过滤器 O ...
shell之任务控制
http://linux.cn/article-2680-1.html 你的 shell 会留有一张当前作业的表单,称为作业表.当你键入命令时,shell 会给它分配一个 jobID(也称作 JOBS ...
python子类分配
原问题是将左边样式变成右边样式: 即有父类和子类,父类包括多个子类,怎样将子类匹配到父类下面的问题代码如下 #!/usr/bin/python3.4 # -*- coding: utf-8 -*- ...
form表单元素类型
<form> <input type="text"> <input type="password"> <input t ...

HtmlParser

HtmlParser 基本类库使用

清单 1

清单2

HtmlParser的更多相关文章

随机推荐

热门专题