往往在实际开发中,经常会用到一些如抓取网站信息之类的的操作,往往大家采用的是用一些正则的方式获取,但是有时候正则是很死板的,我们常常试想能不能使用jquery的选择器,获取符合自己要求的元素,然后进行操作,例如:我想获取一个网页中关于一款产品的链接,并从这些链接中获取相应产品的数据。如果写正则匹配网址也是 很纠结的事情。但如果能使用jquery选择器难道href的value,然后在验证 就是 一件非常愉快的事情了。

  首先介绍一些今天用的框架:Jumony,这是一个html解析器。(关于html解析器,顾名思义就是对一段html 文本进行解析,解析成可以操作的元素。)当然这并不只是一套html解析器,他还有mvc引擎的功能。

项目地址:https://github.com/Ivony/Jumony

  然后说下这个框架中的术语:

  元素(IHtmlElement)

元素是 HTML 中最常见的一种对象,如下的 HTML 代码便定义了一个元素:

<a href="#title">Text</a>

元素一般由一个开始标签、一个结束标签以及在标签之间的 HTML 内容组成。在上例中, <a href="#title">是开始标签, </a>是结束标签,Text是元素的内容。

也有一些元素不能包含任何内容,这些元素的在 HTML 代码中便没有结束标签,如:

<img src="http://images.cnblogs.com/logo.png">

 抽象:

由于元素可以包含其他的内容,所以元素满足容器(Container)的抽象。而元素也同时是 HTML 文档内容的一部分,所以元素同时也是一个节点(Node)。

  属性(IHtmlAttribute)

属性是元素的一部分,定义在元素的开始标签中,如下的 HTML 定义了一个元素,并且这个元素也包含了一个属性:

<img src="http://images.cnblogs.com/logo.png">

其中的 src="/images.logo.png" 便是一个属性。属性由属性名和属性值所组成,其中src是属性名,而 "/images.logo.png" 则是属性值。 一个元素也可以由多个属性组成:

 抽象:

值得注意的是,属性是元素的一部分,并不直接是 HTML 文档内容的一部分,所以属性并不是一个节点(Node)。

  注释(IHtmlComment)

注释是 HTML 中的一种特殊的标签,下面的 HTML 代码定义了一个注释

<!--Comment Content-->

其中的 Comment Content 即是注释内容。注释内容会被 HTML 排版引擎所忽略。

 抽象:

与元素一样,注释也是 HTML 文档内容的一部分,所以注释也是一个节点(Node)。

  文本节点(IHtmlTextNode)

所有没有被尖括号<>括起来的内容,都是 HTML 文本节点。例如:

文本A<p>文本内容<p>文本B

其中的 文本A 、文本内容 、 文本B 都是 HTML 文本节点

 抽象:

与元素一样,文本节点也是 HTML 文档内容的一部分,所以文本节点是一个节点(Node)。

  特殊节点(IHtmlSpecial)

特殊节点并不是 HTML 标准的一部分,所有无法被识别的标签,都会被分析器解释为特殊节点。例如 DOCTYPE 声明:

<!DOCTYPE html>

或者是代码片段

<%=Eval( "name" )%>

 抽象:

与元素和注释一样,特殊节点也是 HTML 文档内容的一部分,所以特殊节点是一个节点(Node)。

  文档片段(IHtmlFragment)

文档片段是一种特殊的 DOM 对象,其表现为不存在于当前 HTML 文档中的一小段 HTML 片段,文档片段可以随时被插入到文档的指定位置。插入到具体位置后,原有的文档片段对象即被销毁。

文档片段可以通过解析 HTML 而得到

 抽象:

文档可以包含其他内容节点,所以与元素一样,文档也是一个容器。

  文档(IHtmlDocument)

HTML 文档是所有 DOM 对象的根对象,所有的 DOM 对象必然属于某个文档。

文档包含一个可选的 HTML 文档类型声明,一系列的子节点和文档片段。在某个文档上创建的文档片段,只能插入到这个文档的之中。

文档决定了整个 DOM 结构的具体实现,以及依据的 HTML 规范版本,这些将进一步影响到所有 API 的行为。所以针对A文档和B文档的同一个API的行为可能是不同的。

 抽象:

文档可以包含其他内容节点,所以与元素一样,文档也是一个容器。

  容器(IHtmlContainer)

容器是一个抽象对象,其被定义为可以包含子节点的对象。所以,文档、元素、文档片段均符合容器抽象。

IHtmlContainer 接口定义了一个 Nodes 方法获取容器的所有子节点。而 Jumony API 则提供了丰富多样的导航方法可以利用 CSS 选择器查找容器的所有子元素、子代元素。同时,所有的容器都支持 InnerHtml 和 InnerText 方法获取其内容

  节点(IHtmlNode)

节点也是一个抽象对象,其被定义为包含在容器中在文档上有确定位置的对象,元素、文本节点、注释节点和特殊节点均符合节点抽象。但值得注意的是,属性并不是节点。

IHtmlNode 接口定义了 Container 方法获取节点所属的容器。Jumony API 提供了丰富的导航方法可以获取节点的所有父代、兄弟节点和元素以及前后节点和元素。同时,所有的节点都支持 OuterHtml 方法。

  DOM 对象(IHtmlDomObject)

DOM 对象是上面所有对象的抽象。由于文档决定了 DOM 结构的具体实现和所依据的 HTML 规范,所以所有的 DOM 对象的行为均由文档对象决定。故而 IHtmlDomObject 接口定义 Document 属性用于获取 DOM 对象所属的文档。

使用方式:

首先引用 一堆dll

Ivony.Core.dll

Ivony.Html.dll

Ivony.Html.Parser.dll

Ivony.Html.Parser.Regulars.dll

 然后加载网址

 var doc = new JumonyParser().LoadDocument("http://www.baidu.com");

 然后查找你想要的元素

 //查找所有 img 地址

 var ans=doc.Find("img[src]");

 //打印所有src的值

 foreach (var htmlElement in ans)

 {

 Console.WriteLine(htmlElement.Attribute("src").AttributeValue);

 }

.net抓取网页信息 - Jumony框架使用1的更多相关文章

  1. HttpClient+Jsoup 抓取网页信息(网易贵金属为例)

    废话不多说直接讲讲今天要做的事. 利用HttpClient和Jsoup技术抓取网页信息.HttpClient是支持HTTP协议的客户端编程工具包,并且它支持HTTP协议. jsoup 是一款基于 Ja ...

  2. Powershell抓取网页信息

    一般经常使用invoke-restmethod和invoke-webrequest这两个命令来获取网页信息,如果对象格式是json或者xml会更容易 1.invoke-restmethod 我们可以用 ...

  3. 一、使用 BeautifulSoup抓取网页信息信息

    一.解析网页信息 from bs4 import BeautifulSoup with open('C:/Users/michael/Desktop/Plan-for-combating-master ...

  4. C# 使用HtmlAgilityPack抓取网页信息

    前几天看到一篇博文:C# 爬虫 抓取小说 博主使用的是正则表达式获取小说的名字.目录以及内容. 下面使用HtmlAgilityPack来改写原博主的代码 在使用HtmlAgilityPack之前,可以 ...

  5. shell脚本抓取网页信息

    利用shell脚本分析网站数据 # define url time=$(date +%F) mtime=$(date +%T) file=/abc/shell/abc/abc_$time.log ht ...

  6. Fiddle无法抓取网页信息或HTTPS

    1:清除电脑根证书: 打开dos命令框,输入:certmgr.msc ![file](https://img2018.cnblogs.com/blog/1023158/201912/1023158-2 ...

  7. php抓取网页信息

    index.php <?php include_once 'simple_html_dom.php'; //获取html数据转化为对象 $html = file_get_html('http:/ ...

  8. C# 使用 Abot 实现 爬虫 抓取网页信息 源码下载

    下载地址 ** dome **

  9. java模拟用户登录(排除没有验证码情况下,抓取网页信息)

    import java.io.BufferedInputStream;import java.io.BufferedReader;import java.io.IOException;import j ...

随机推荐

  1. 基于Live555,ffmpeg的RTSP播放器直播与点播

    基于Live555,ffmpeg的RTSP播放器直播与点播 多路RTSP高清视频播放器下载地址:http://download.csdn.net/detail/u011352914/6604437多路 ...

  2. UVa 11300 Spreading the Wealth 分金币

    圆桌旁坐着 n 个人,每个人都有一定数量的金币,金币总数能够被 n 整除.每个人可以给他左右相邻的人一些金币,最终使得每个人的金币数目相等.你的任务是求出被转手的金币数量的最小值,比如 n = 4, ...

  3. 一个响应式框架——agera

    Google在上周开源了一个响应式框架——agera,相信它会慢慢地被广大程序员所熟知.我个人对这样的技术是很感兴趣的,在这之前也研究过RxJava,所以在得知Google开源了这样的框架之后第一时间 ...

  4. j2ee的13个标准

    1:JDBC(Java Database Connectivity)JDBC API为访问不同数据库提供了统一的路径,向ODBC一样,JDBC开发者屏蔽了一些细节问题,另外,JDBC对数据库的访问也具 ...

  5. 锋利的jQuery读书笔记---选择器

    前段时间入手了锋利的jQuery(第二版),想着加强下自己的js能力,可前段时间一只在熟悉Spring和Hibernate.最近抽时间开始读这本书了,随便也做了些记录. 读书的过程是边看边代码测试,所 ...

  6. Oracle行列互换 横表和纵表

    /* 在实际使用sql工作中总会碰到将某一列的值放到标题中显示.就是总说的行列转换或者互换. 比如有如下数据: ID NAME KECHENG CHENGJI -- ---------- ------ ...

  7. Windows Sockets Error Codes

    https://msdn.microsoft.com/en-us/library/windows/desktop/ms740668(v=vs.85).aspx Most Windows Sockets ...

  8. win7和centos双系统安装

    几年之前为了安装xp和linux的双系统曾折腾了好多天,今天为了安装这个win7和centos双系统,也折腾了两天多,哦,我的天,安装个双系统,怎么这么麻烦呢? 没有来得及整理,先铺上草稿,供同志们参 ...

  9. C# chart,有关如何在鼠标移动到Series上时显示节点及数据 (有待继续更新)

    一.效果与思路 效果: 解决方案1 用chart的mousemove时间,实时跟踪鼠标最近的X轴的位置,然后把cursorX设置到那个位置上,让用户知道我是选的那一个X的值,同时用tooltip显示该 ...

  10. C++ static内容小结

    C++中static总结比较好的博客:http://blog.csdn.net/laixingjun/article/details/9139839 http://blog.csdn.net/xiaj ...