HTML Agility Pack:簡單好用的快速 HTML Parser
HTML Agility Pack:簡單好用的快速 HTML Parser
Codeplex 軟體套件(Package)資訊 | |
套件名稱 | HTML Agility Pack |
作者 | Simon Mourier |
目前版本 | 1.4.0 Beta 2 |
URL | http://htmlagilitypack.codeplex.com/ |
使用難易度 | 中 |
使用此套件時可用的輔助工具 | HAP Explorer(可在上述 URL 找到) Internet Explorer 8 開發者工具 |
基礎知識 | HTML XML 和 XPath 最好有使用過 System.Xml 命名空間中的 XmlDocument 類別,以及其 SelectNodes() 或 SelectSingleNode() 方法。 |
解析 HTML:Web 開發人員心中的痛
自從 Web 應用程式自 1993 年 W3C 設立以來就開始發展,而且 HTML 也歷經了數個版本的演化(1.0 – 2.0 – 3.0 – 3.2 – 4.0 – 4.01),現在也已經成為Web網頁或應用程式的最基礎,想要學習如何設計 Web 網頁或開發 Web 應用程式,這已經是絕對必須要學的東西了,就算是方便的控制項充斥(例如 ASP.NET),但 HTML 仍然有學習它的必要性,因此如果不會 HTML,就等於沒學過 Web 網頁般。
拜 HTML 與 Web 瀏覽器蓬勃發展之賜,各式各樣的應用都在網路上迅速發展,舉凡電子商務、企業入口、線上下單、企業間協同應用等,乃至於社群、個人化、Web 2.0 等商務與組織運用等能力,而在資訊爆炸的時代,很多資訊整合的應用也隨之出爐,而這些資訊整合的應用程式都會連接到不同的網站下載其資訊,並且在重重的 HTML 中剖析出想要的資料(例如每股價格、漲跌幅、成交量等)。
但是 HTML 本身並不是一個結構嚴謹的語言,它允許標籤(tag)可以在不 close 的情況下繼續使用。這也是因為瀏覽器設計的高容錯性(Fault Tolerance)所致,如此一來,想要依照規則來剖析 HTML 文件幾乎變得不可能,而且對方的網站的 HTML 結構也可能會隨時變化,在這種情況下,剖析 HTML 變得非常辛苦,雖然 W3C 有另外推展 XHTML(遵守 XML 嚴謹格式的 HTML),但使用它來設計網頁的案例仍為少數,大多數的網站仍然是使用 HTML。因此我們會需要一個工具,能夠有方法快速的解析 HTML 以取出我們需要的資料。
傳統解析 HTML 的方法
大家都知道,HTML 本身其實只是一個 HTML 標記的字串而已,因此一般說到要解析 HTML,第一個會想到的大概就是字串比對(string comparison),自己針對 HTML 的結構寫一個 pattern,然後由函式去做逐一的比對,例如:
- string pattern = "<td id='stockPrice'>";
- html.IndexOf(pattern);
不過傳統的字串比對效能太差,也沒有一個規則性,因而才發展出規則運算式(Regular Expression)技術,例如下列這樣的語法:
- </?\w+((\s+\w+(\s*=\s*(?:".*?"|'.*?'|[^'">\s]+))?)+\s*|\s*)/?>
來源: http://haacked.com/archive/2005/04/22/Matching_HTML_With_Regex.aspx
但 Regular Expression 的學習曲線很高,若要使用它來解析 HTML,並且再加以客制化(Customization)的話,對於一般開發人員來說,實在沒有什麼親和力。
HTML 還有一個特色,就是它是具階層性(Hierarchy)的,因此瀏覽器在解譯它的時候都會以文件樹(document tree)的方式,再用遞迴(recursive)的方法來處理它,但 Regular Expression 沒有支援階層性的剖析,而最接近階層剖析又好用的工具,莫過於 XML Parser 了,它的 DOM 以及 XPath 的特性,都可以讓解析 XML 的工作變得輕鬆,然而 XML Parser 無法讀取一般的 HTML(XHTML 可以),因為一般的 HTML 是結構鬆散的類型,XML Parser 會在讀入時檢查語法結構是否完整(也就是 Well-known 的結構),若讀入的是結構鬆散的內容的話會擲出例外訊息,因此無法直接使用 XML Parser 來輔助。
HTML 文件樹(IE8 開發者工具)
不過,現在已經有人發展出可以在 HTML 上面使用類似於 XPath 的方式來存取鬆散結構的 HTML 的工具,並且在 Codeplex 上以開放原始碼的方式公開給外界使用,這個工具就是本文所要介紹的 HTML Agility Pack。
HTML Agility Pack 簡介
HTML Agility Pack 是由法國的一位軟體架構師 Simon Mourier 所發展,並且由 DarthObiwan 以及 Jessynoo 輔助開發出來的一個軟體工具,它可以讓剖析鬆散格式 HTML 的工作就像剖析 XML 一樣簡單,它也有類似於 System.Xml 命名空間中的 XML DOM 的許多類別,除了可以使用階層的方式存取 HTML 以外,它也支援使用 XPath 的方式來搜尋 HTML,這會較以往使用文字比對或是 Regular Expression 的比對方式來得更明確,例如:
上圖中以藍色方框框住的是 W3C 的最新消息公告區,而它的 HTML 階層樹是這個樣子:
以往要使用 Regular Expression 剖析時可能要走很多步驟(Match 會回傳很多資料,除非寫的夠精準),才會到達方框所在的位置,但使用 HTML Agility Pack 元件時,我們能用這樣的語法:
- /html[1]/body[1]/div[1]/div[2]/div[3]/div[2]/div[1]/div[1]/div[1]
就到達我們想要的地點,這個語法和 XPath 相當類似,對於熟悉 XPath 或是 DOM 的開發人員會比較有利。HTML Agility Pack 元件的類別階層和 XML DOM Parser 其實蠻像的,若先前有用過 XML DOM 的開發人員會覺得很熟悉:
HTML Agility Pack 元件的類別階層
这是个很好的的东西,以前做Html解析都是在用htmlparser,用的虽然顺手,但解析速度较慢,碰巧今天找到了这个,就拿过来试,一切出乎意料,非常爽,推荐给各位使用。
下面是一些简单的使用技巧,希望对大家有用,我个人也是个学习过程。
Why Html Agility Pack? (以下简称HAP)
.Net下解析HTML文件有很多种选择,包括微软自己也提供MSHTML用于manipulate HTML文件。但是,经过我一段时间的搜索,Html Agility Pack浮出水面:它是Stackoverflow网站上推荐最多的C# HTML解析器。HAP开源,易用,解析速度快。
How to use HAP?
1. 下载http://htmlagilitypack.codeplex.com/
2. 解压
3. 在Visual Studio Solution里,右击project -> add reference -> 选择解压文件夹里的HTMLAgilityPack.dll -> 确定
4. 代码头部加入 using HtmlAgilityPack;
HtmlWeb webClient = new HtmlWeb();
HtmlDocument doc = webClient.Load("http://xxx");
HtmlNodeCollection hrefList = doc.DocumentNode.SelectNodes(".//a[@href]");
if (hrefList != null)
{
foreach (HtmlNode href in hrefList)
{
HtmlAttribute att = href.Attributes["href"];
doSomething(att.Value);
}
}
Q: 如何根据ID选择HTML结点?
A: 利用@id='xxx', e.g.,
HtmlNode bugSum = doc.DocumentNode.SelectSingleNode("//h2[@id='summary']");
Q: 如何得到结点的文字内容或Html内容?
node.InnerText.Trim()
node.InnerHtml
node.OuterHtml
Q: 如何在html树结构下查找结点?
A: 比如从根节点查找id=container的div下的第一个table:
HtmlNode table = doc.DocumentNode.SelectSingleNode("//div[@id='container']/table[1]");
注意路径里"//"表示从根节点开始查找,两个斜杠‘//’表示查找所有childnodes;一个斜杠'/'表示只查找第一层的childnodes(即不查找grandchild);点斜杠"./"表示从当前结点而不是根结点开始查找。接上一行代码,比如要查找table所有直接子结点的tr:
HtmlNodeCollection tr = table.SelectNodes("./tr");
Q: 如何得到结点的ID?
A: 很简单: node.ID
Q: 如果一段html存在字符串里,是否可以用Html Agility Pack进行处理?
A:可以,先将字符串load进来,之后的处理方法一样:
<pre name="code" class="csharp">//load the original html
string html = "some html stuff"
HtmlDocument doc = new HtmlDocument();
doc.LoadHtml(@html);
Q: 我对load进来的html进行了一些处理,比如改变了一些结点内容,删除了一些结点什么的,为什么结果却没有变化?
A: 也许你忘记save你对html的改变了,假设html存在字符串中:
//load the original html
string html = "some html stuff"
HtmlDocument doc = new HtmlDocument();
doc.LoadHtml(@html);
//make some changes
doSomething();
//save the change
var sb = new StringBuilder();
using (var writer = new StringWriter(sb))
{
doc.Save(writer);
}
Q: 如何去掉外层的html tag只留下内容?
A: 用remove方法。假设结点<a href=xxx>ABCD</a>,你想留下ABCD而不要<a></a>,那你需要先得到这个Html结点,假设叫link:
link.ParentNode.RemoveChild(link,true);
参数true表示留下grandchild,在这里即内容ABCD; false表示将此结点连同其grandchilds一起删除。
规则有很多,网上提供了源代码,可以研究一下,还有源代码有乱码问题,是字符集的问题,只需要写一个方法来自动判断就可以解决了
如上面的說明,我們可以撰寫這樣的程式碼來讀取 W3C 首頁公布的最新消息的清單:
- using HtmlAgilityPack;
- public static void Main(string[] args)
- {
- HtmlWeb webClient = new HtmlWeb();
- HtmlDocument doc = webClient.Load("http://www.w3.org/");
- HtmlNodeCollection nodes = doc.DocumentNode.SelectNodes("/html[1]/body[1]/div[1]/div[2]/div[3]/div[2]/div[1]/div[1]/div[1]/div");
- foreach (HtmlNode node in nodes)
- {
- Console.WriteLine(node.InnerText.Trim());
- }
- doc = null;
- nodes = null;
- webClient = null;
- Console.WriteLine("Completed.");
- Console.ReadLine();
- }
HTML Agility Pack:簡單好用的快速 HTML Parser的更多相关文章
- Html Agility Pack 解析Html
Hello 好久不见 哈哈,今天给大家分享一个解析Html的类库 Html Agility Pack.这个适用于想获取某网页里面的部分内容.今天就拿我的Csdn的博客列表来举例. 打开页面 用Fir ...
- 簡單工廠模式-之-什麼是產品線 And 抽象工廠模式-之-什麼是產品族
簡單工廠模式-之-什麼是產品線 簡單工廠模式中,有一個概念就是使用了多層次的產品結構,那麼什麼是產品結構或者說什麼是產品線? 假定我們有一個基準的產品標準Product,那麼所有繼承該基類或者傳遞基類 ...
- [Xamarin] 簡單使用Fragment 靜態篇 (转帖)
新的Android 開發,非常會使用到Fragment,不過官方範例有點小複雜,對初學者來說有點難消化,所以就記錄一下心得,這邊部落格將使用靜態的方法使用Fragment,Fragment 有自己的生 ...
- 开源项目Html Agility Pack实现快速解析Html
这是个很好的的东西,以前做Html解析都是在用htmlparser,用的虽然顺手,但解析速度较慢,碰巧今天找到了这个,就拿过来试,一切出乎意料,非常爽,推荐给各位使用. 下面是一些简单的使用技巧,希望 ...
- [Xamarin] 簡單使用AlertDialog (转帖)
這東西跟Toast 很像,有方便提示的作用 像是Windows 上面的MessageBox 或是 Javascript 的 Alert 會先阻斷使用者並且下一個決定 很簡單我就不贅述,基本上透過 Al ...
- 簡單SQL存儲過程實例
簡單SQL存儲過程實例 摘自:http://blog.csdn.net/libra6956/article/details/5589173 实例1:只返回单一记录集的存储过程. 银行存款表(bankM ...
- 转:[ASP.NET]重構之路系列v4 – 簡單使用interface之『你也會IoC』
前言 上次v3版本,我們將Entity, Service, Dao, Utility都放到了類別庫裡面,讓我們可以輕鬆的在不同專案中用同一份組件.雖然文章沒有獲得太多的讚賞,不過相信那一定是太多人會這 ...
- Html Agility Pack基础类介绍及运用
第一篇只对Html Agility Pack做了一个大概的介绍,在接下来的章节会比较深入的介绍Html Agility Pack. Html Agility Pack 源码中的类大概有28个左右,其实 ...
- HTML WEB 和HTML Agility Pack结合
现在,在不少应用场合中都希望做到数据抓取,特别是基于网页部分的抓取.其实网页抓取的过程实际上是通过编程的方法,去抓取不同网站网页后,再进行分析筛选的过程.比如,有的比较购物网站,会同时去抓取不同购物网 ...
随机推荐
- VMware Workstation 12序列号:
VMware Workstation 12序列号: 5A02H-AU243-TZJ49-GTC7K-3C61N
- centos7+mysql5.7.11实现主从复制
1 首先检测当前的系统是否已经安装了MySQL yum list installed | grep mysql 如果有的话,删除 2 下载rpm库资源,在网页 https://dev.mysql. ...
- python XML梳理
导入ElementTree模块 import xml.etree.ElementTree as ET 为了创建一个element实例,使用Element 构造函数或者SubElement()工厂函数. ...
- 数据结构(三)串---KMP模式匹配算法之获取next数组
(一)获取模式串T的next数组值 1.回顾 我们所知道的KMP算法next数组的作用 next[j]表示当前模式串T的j下标对目标串S的i值失配时,我们应该使用模式串的下标为next[j]接着去和目 ...
- AttributeError: 'module' object has no attribute 'X509_up_ref'
主要报错: AttributeError: 'module' object has no attribute 'X509_up_ref' 1 解决办法 卸载再重装pyOpenSSL pip unins ...
- bzoj千题计划206:bzoj1076: [SCOI2008]奖励关
http://www.lydsy.com/JudgeOnline/problem.php?id=1076 很容易想到方程 dp[i][j]表示抛出了i个宝物,已选宝物状态为j的期望最大得分 初始化dp ...
- p 最多两行 多的显示省略号
-webkit-line-clamp: 2 -webkit-box-orient: vertical; }
- HDU 4502 吉哥系列故事——临时工计划(一维动态规划)
题意:吉哥的假期是1到n天,然后有m个工作可以让吉哥选择做,每个工作都有一个开始 t_s 和结束的时间 t_e ,都用天来表示,然后每个工作必须从第一天做到最后一天, 从头到尾做完之后就可以得到 ...
- 最短路 spfa+STL
与迪杰斯特拉相同的是spfa也是用来求单源点的最短路径问题,但是,当问题中的边是有向负边的时候,迪杰斯特拉就无能为力了, 而且给我的感觉是spfa如何结合STL来用的话代码比迪杰斯特拉的还要短一点,只 ...
- Dream_Spark-----Spark 定制版:004~Spark Streaming事务处理彻底掌握
Spark 定制版:004~Spark Streaming事务处理彻底掌握 本讲内容: a. Exactly Once b. 输出不重复 注:本讲内容基于Spark 1.6.1版本(在2016年5月来 ...