Html Agility Pack 使用 XPath 选择器

想做一个爬虫程序，以前用的一直使用CSS选择器的html解析插件，最近做的项目想使用 Html Agility Pack 来做解析

Html Agility Pack使用 XPath 和 Linq 来做Html解析，我使用Xpath中记录

解析网页：http://txzhanshang.zhankoo.com/tt

列表下一页：//*[contains(@class, 'pagination-right')]/a[text()='下一页']

文章地址：//*[@class='zsinfo']/li/a[@href]

        // GET: Test

        public ActionResult Index()

        {

            var crawlerConfigList = _crawlerConfigService.GetCrawlerConfigs();

            foreach (var crawlerConfig in crawlerConfigList)

            {

                GetList(crawlerConfig);

            }

            ViewBag.UrlList = urlList;

            return View(crawlerConfigList);

        }

        private void GetList(CrawlerConfig crawlerConfig)

        {

            var web = new HtmlWeb();

            var htmlDoc = web.Load(crawlerConfig.CrawlerUrl);

            var node = htmlDoc.DocumentNode.SelectNodes(crawlerConfig.ASelector);

            node.ForEach(x =>

            {

                urlList.Add(x.Attributes["href"].Value);

            });

            //下一页

            var nextpageNode = htmlDoc.DocumentNode.SelectSingleNode(crawlerConfig.ListNextPageSelector);

            if (nextpageNode != null)

            {

                var nextpage = nextpageNode.Attributes["href"].Value;

                if (!string.IsNullOrEmpty(nextpage))

                {

                    crawlerConfig.CrawlerUrl = crawlerConfig.CrawlerDomain + nextpage;

                    GetList(crawlerConfig);

                }

            }

        }

移除某个节点

var url = "http://txzhanshang.zhankoo.com/detail/12709.html";

            var web = new HtmlWeb();

            var htmlDoc = web.Load(url);

            var node = htmlDoc.DocumentNode.SelectSingleNode("//*[@class='inner-wrap']");

            //移除某个节点

            foreach (var rm in node.SelectNodes("//*[@class='newsContenttip']"))

            {

                rm.Remove();

            }

            var ss = node.InnerText;

            var sss = node.InnerHtml;

Html Agility Pack 使用 XPath 选择器的更多相关文章

WP8 中使用HTML Agility Pack与友盟分享SDK遇到的 System.Xml.XPath加载问题
今晚在尝试使用友盟最新的社交分享SDK时,按照官方Demo,并未做多少多少改动,就是去除了对微信.脸书和推特的分享.然后运行之后就一直报错 : {System.IO.FileLoadException ...
强大而灵活的的Html解析器——Html Agility Pack
一.概述 Html Agility Pack 简称HAP,是一个强大而灵活的解析Html DOM的.Net类库. 二.官方链接官网:http://html-agility-pack.net/ NuG ...
Html Agility Pack基础类介绍及运用
第一篇只对Html Agility Pack做了一个大概的介绍,在接下来的章节会比较深入的介绍Html Agility Pack. Html Agility Pack 源码中的类大概有28个左右,其实 ...
HTML WEB 和HTML Agility Pack结合
现在,在不少应用场合中都希望做到数据抓取,特别是基于网页部分的抓取.其实网页抓取的过程实际上是通过编程的方法,去抓取不同网站网页后,再进行分析筛选的过程.比如,有的比较购物网站,会同时去抓取不同购物网 ...
一款很不错的html转xml工具-Html Agility Pack
之前发个一篇关于实现html转成xml的劣作<实现html转Xml>,受到不少网友的关心.该实现方法是借助htmlparser去分解html内容,然后按照dom的结构逐个生成xml字符串. ...
Html Agility Pack解析HTML页
文章来源:Html Agility Pack解析HTML页现在,在不少应用场合中都希望做到数据抓取,特别是基于网页部分的抓取.其实网页抓取的过程实际上是通过编程的方法,去抓取不同网站网页后,再进行分 ...
C# 网络爬虫利器之Html Agility Pack如何快速实现解析Html
简介现在越来越多的场景需要我们使用网络爬虫,抓取相关数据便于我们使用,今天我们要讲的主角Html Agility Pack是在爬取的过程当中,能够高效的解析我们抓取到的html数据. 优势在.NE ...
[c#] Html Agility Pack 解析HTML
摘要在开发过程中,很有可能会遇到这样的情况,服务端返回的是html的内容,但需要在客户端显示纯文本内容,这时候就需要解析这些html,拿到里面的纯文本.达到这样的目的可以有很多途径,比如自己写正则表 ...
HTML Agility Pack：簡單好用的快速 HTML Parser
HTML Agility Pack:簡單好用的快速 HTML Parser Codeplex 軟體套件(Package)資訊套件名稱 HTML Agility Pack 作者 Simon Mouri ...

随机推荐

Flutter移动电商实战 --（46）详细页_自定义TabBar Widget
主要实现详情和评论的tab provide定义变量自己做一个tab然后用provide去控制定义两个变量来判断是左侧选中了还是右侧选中了.并定义一个方法来接受参数,修改是左侧还是右侧选中的状态值 ...
tomcat注册成服务
1>修改"bin\service.bat"文件服务名:下图中的SERVICE_NAME 服务显示名称:下图中的DISPLAYNAME 服务描述:Description 2& ...
vue.js中如何使用scss
要使用 <style lang="sass"> 請記得要裝相依的套件 $ npm install sass-loader node-sass vue-style-loa ...
bootargs中的rootwait 与rootdelay有什么区别?
答: rootwait是无限期等待,而rootdelay可以指定等待的时间,更加灵活.
python笔记9 线程进程 threading多线程模块 GIL锁 multiprocessing多进程模块同步锁Lock 队列queue IO模型
线程与进程进程进程就是一个程序在一个数据集上的一次动态执行过程.进程一般由程序.数据集.进程控制块三部分组成.我们编写的程序用来描述进程要完成哪些功能以及如何完成:数据集则是程序在执行过程中所需要 ...
Web前端笔记整理
不使用Ajax无刷新提交: header('HTTP/1.1 204 No Content'); var a=document.createElement('img'); a.setAttribute ...
int 和String之间的相互转换
int ---> String 1. 和 "" 进行拼接 2. 使用String类中的静态方法valueOf: public static String valueOf(in ...
Python与C/C++相互调用(python2 调c++那个试了ok)
一.问题 Python模块和C/C++的动态库间相互调用在实际的应用中会有所涉及,在此作一总结. 二.Python调用C/C++ 1.Python调用C动态链接库 Python调用C库比较简单,不经过 ...
PAT 甲级 1043 Is It a Binary Search Tree (25 分)（链表建树前序后序遍历）*不会用链表建树 *看不懂题
1043 Is It a Binary Search Tree (25 分) A Binary Search Tree (BST) is recursively defined as a bina ...
django模板---过滤器
过滤器通过django的过滤器可以在无须编码的情况下完成一些基本工作,比如字母的大小写转换.日期转换.获取字符串的长度.过滤器要放到标签的标识符后面,中间用竖杠(|)分隔, 如下面的过滤器把name ...

Html Agility Pack 使用 XPath 选择器

Html Agility Pack 使用 XPath 选择器的更多相关文章

随机推荐

热门专题