HtmlAgilityPack使用

C#+HtmlAgilityPack+XPath带你采集数据(以采集天气数据为例子)

第一次接触HtmlAgilityPack是在5年前,一些意外,让我从技术部门临时调到销售部门,负责建立一些流程和寻找潜在客户,最后在阿里巴巴找到了很多客户信息,非常全面,刚开始是手动复制到Excel,是真尼玛的累,虽然那个时候C#还很菜,也想能不能通过程序来批量获取(所以平时想法要多才好).几经周折,终于发现了HtmlAgilityPack神器,这几年也用HtmlAgilityPack采集了很多类型数据,特别是足球赛事资料库的数据采集以及天气数据采集,都是使用HtmlAgilityPack,所以…

用WebRequest +HtmlAgilityPack 从外网抓取数据到本地

相信大家对于WebRequest 并不陌生,我们在C#中发请求的方式,就是创建一个WebRequest .那么如果我们想发一个请求到外网,比如国内上不了的一些网站,那么该怎么做呢? 其实WebRequest 已经帮我们想好了,WebRequest 独创了Proxy(不知道是不是独有的)模式,以下是部分代码,至于代理IP有兴趣的可以自己去网上搜索. 我这里用的是匿名代理,所以不需要凭据,这点要说明一下,有些代理是要账号名和密码的. System.Net.WebRequest req = Syste…

【C#】获取网页内容及HTML解析器HtmlAgilityPack的使用

最近经常需要下载一些东西,而这个下载地址又会经过层层跳转,每个页面上都有很多广告,烦不胜烦,所以做了一个一键获得最终下载地址的小工具.使用C#,来获取网页内容,然后通过HtmlAgilityPack获取某a标签的href,不断循环,层层跳转,最后获得最终下载地址. 下面,介绍HtmlAgilityPack的使用方法,这个方法也是从网上很多篇文章中拼凑摸索出来的,因为找了一大圈根本找不到HtmlAgilityPack的文档…… 首先,using HtmlAgilityPack; 代码片段: str…

爬虫技术 -- 进阶学习（十）网易新闻页面信息抓取（htmlagilitypack搭配scrapysharp）

最近在弄网页爬虫这方面的,上网看到关于htmlagilitypack搭配scrapysharp的文章,于是决定试一试~ 于是到https://www.nuget.org/packages/ScrapySharp去看看, 看到这句下载提示:To install ScrapySharp, run the following command in the Package Manager Console PM> Install-Package ScrapySharp 接下去我就去找package man…

黄聪：C#类似Jquery的html解析类HtmlAgilityPack基础类介绍及运用

Html Agility Pack下载地址:http://htmlagilitypack.codeplex.com/ Html Agility Pack 源码中的类大概有28个左右,其实不算一个很复杂的类库,但它的功能确不弱,为解析DOM已经提供了足够强大的功能支持,可以跟jQuery操作DOM媲美:) 基础类和基础方法介绍 Html Agility Pack最常用的基础类其实不多,对解析DOM来说,就只有HtmlDocument和HtmlNode这两个常用的类,还有一个 HtmlNodeCol…

HTML解析器HtmlAgilityPack的一些使用总结(C#)

哎~本来这些总结是作为使用时的快速备注,但是用不上了.实际应用当中HtmlAgilityPack的可靠性不太稳定,一主要问题是:-> 一些字符会出现乱码或者变成'?',如韩语字符.由于我是已经有HTML源,只需要Load后解析,所以设置OverrideEncoding的方法不管用.-> 有时候获取到的元素内容会多个换行或空格什么的,然后又要增加代码过滤,然后效率就下来了... ...浪费了不少时间,到头来还是mshtml可靠性高些.而且调用方法也熟悉.不管网上对各种HTML解析器怎么测评,只有…

2012-09-10 23:30 如何解决HtmlAgilityPack得到的InnerText中有残留的script、样式的问题

那么如何解决HtmlAgilityPack得到的InnerText中有残留的script.样式的问题呢,在google上搜索“HtmlAgilityPack script innerText”找到了stackoverflow上的这篇文章<C#: HtmlAgilityPack extract inner text> 代码如下: foreach(varscript indoc.DocumentNode.Descendants("script").ToArray())scr…

HtmlAgilityPack组件

HtmlAgilityPack组件用于解析Html字符串,一个典型的应用场景是用于网页爬虫. 示例程序 using Common.Tools; using Datebase.Entity; using HtmlAgilityPack; using Http.Extension; using ServiceStack.Orm.Extension.Imples; using ServiceStack.Orm.Extension.Interface; using ServiceStack.OrmLit…

使用HtmlAgilityPack解析Html(非常好用)

/// <summary> /// 设计成一个exe,解决WebBrowser控件内存泄漏的问题. /// </summary> public partial class MainForm : Form { /// <summary> /// 是否处理完成 /// </summary> private bool isCompleted; //webBrowser只能运行在UI线程上,所以这里不用信号通知,而用一个变量,不断检查这个变量的状态 /// <…

HtmlAgilityPack中通过sibling才能得到对应的InnerText和form，option等tag的子节点

[背景] 之前使用HtmlAgilityPack期间,遇到了2个bug: 1. InnerText没有包含对应字符串(但是用NextSibling.InnerText却可以得到) 对于html: ? 1 <option value="search-alias=instant-video">Amazon Instant Video</option> 用如下的代码: ? 1 2 3 4 //<option value="search-alias=in…

利用HtmlAgilityPack库进行HTML数据抓取

主要介绍基于XPATH的文本分析方式的实现,代码如下: using System; using System.Collections.Generic; using System.Linq; using System.Text; using System.Threading.Tasks; using HtmlAgilityPack; namespace MyIdea.Spider { class Program { static void Main(string[] args) { GetData…

【转】C#类似Jquery的html解析类HtmlAgilityPack基础类介绍及运用

HtmlAgilityPack搭配 ScrapySharp或HtmlAgilityPack.CssSelectors

Html Agility Pack 源码中的类大概有28个左右,其实不算一个很复杂的类库,但它的功能确不弱,为解析DOM已经提供了足够强大的功能支持,可以跟jQuery操作DOM媲美:)Html Agility Pack最常用的基础类其实不多,对解析DOM来说,就只有HtmlDocument和HtmlNode这两个常用的类,还有一个 HtmlNodeCollection集合类. 一.ScapySharp HTML Agility Pack的操作起来还是很麻烦,下面我们要介绍的这个组件是Scra…

HtmlAgilityPack 删除script、style以及注释标签

foreach(var script in doc.DocumentNode.Descendants("script").ToArray()) script.Remove(); foreach(var style in doc.DocumentNode.Descendants("style").ToArray()) style.Remove(); foreach (var comment in doc.DocumentNode.SelectNodes("/…

HtmlAgilityPack 处理通配的contains

//选择不包含class属性的节点 var result = node.SelectNodes(".//span[not(@class)]"); //选择不包含class和id属性的节点 var result = node.SelectNodes(".//span[not(@class) and not(@id)]"); //选择不包含class="expire"的span var result = node.SelectNodes("…

.NET Core HtmlAgilityPack HTML解析利器

最近学习.NET Core ,想把自己之前的一个项目升级到 .NET Core. 发现HtmlAgilityPack 没法进行引用,遂自己做了些修改,可以运行在 .NET Core 中.现在分享出来,也是为 .NET Core 做一些贡献. .NET Core版 HtmlAgilityPack HTML解析利器,目前是 HtmlAgilityPack Core RC2 HtmlAgilityPack 介绍 HtmlAgilityPack是一个基于.Net的.第三方免费开源的微型类库,主要用于在…

Win10通用程序 UWP版HtmlAgilityPack UWP应用使用示例

Win10 UWP版HtmlAgilityPack,UWP应用使用示例下载. Win10 发布了一个多星期,sdk是随着一起发布的,我安装好vs2015和sdk 开发UWP 通用程序. 在做网络解析的时候,用nuget 安装 HtmlAgilityPack 发现在UWP 通用程序里无法使用. 刚开始以为版本的问题,随后更换了几个版本号都发现无法使用. 然后到HtmlAgilityPack 官方开源地址:http://htmlagilitypack.codeplex.com/ 下载源码,放到win…

http://stackoverflow.com/questions/5876825/htmlagilitypack-and-timeouts-on-load http://stackoverflow.com/questions/12468497/how-can-i-add-a-webrequest-to-set-timeout-when-loading-a-url-to-document-in-html stackoverflow是个好网站,什么问题都能搜,多多利用针对加载超时.网页编码问题…

HtmlAgilityPack解析器在WP8.1下报错，不仅如此，社交化分享也报错。

以前WP7下是用的HtmlAgilityPack和 XPath来解析网页,很好用. 但是在Wp8.1下,这个里面却缺少了一个很重要的方法. HtmlDocument doc = new HtmlDocument(); //实例化HtmlDocument对象 doc.LoadHtml(html); //载入HTML var tags = doc.DocumentNode.SelectNodes("//li"); //根据HTML节点NODE的ID获取节点 SelectNodes()方法是…

HtmlAgilityPack抓取搜房网数据简单示例

HtmlAgilityPack是一个开源的解析HTML元素的类库,最大的特点是可以通过XPath来解析HMTL,如果您以前用C#操作过XML,那么使用起HtmlAgilityPack也会得心应手.目前最新版本为1.4.6. 程序示例如下: 代码如下: using HtmlAgilityPack; using System; using System.Collections.Generic; using System.ComponentModel; using System.Data; using…

HtmlAgilityPack下载开启压缩的页面乱码

当一个被采集的网页是开启压缩了的话,如果使用HtmlAgilityPack 的HtmlWeb默认配置去下载,下载回来的HTML代码是乱码,应该进行如下操作 HtmlWeb web = new HtmlWeb(); HtmlAgilityPack.HtmlWeb.PreRequestHandler handler = delegate(HttpWebRequest request) { request.Headers[HttpRequestHeader.AcceptEncoding] = "gzi…

FizzlerEx —— 另一个HtmlAgilityPack的CSS选择器扩展，

之前我介绍过HtmlAgilityPack的CSS选择器扩展——ScrapySharp,它可以非常方便的实现通过CSS选择器表达式来查询HtmlNode.今天在使用的过程中,发现它不支持nth-child语法,导致在许多查询的地方不大方便. 在网上搜了一下,找到了另一个支持得更全面的HtmlAgilityPack的CSS选择器扩展FizzlerEx.它的使用方法也非常相似. using HtmlAgilityPack; using Fizzler.Systems.HtmlAgilityPack;…

HTML解析组件HtmlAgilityPack使用

HtmlAgilityPack是一个开源的解析HTML元素的类库,最大的特点是可以通过XPath来解析HMTL,如果您以前用C#操作过XML,那么使用起HtmlAgilityPack也会得心应手.目前最新版本为1.4.6,下载地址如下: http://htmlagilitypack.codeplex.com/ 下面以一个简单的例子来介绍下HtmlAgilityPack的使用,对于Asp.Net程序开发的网站要做模拟登录的时候,除了要知道用户名文本框和密码文本框的name属性值外,还需要知道页面的…

爬虫技术 -- 进阶学习（九）使用HtmlAgilityPack获取页面链接（附c#代码及插件下载）

菜鸟HtmlAgilityPack初体验...弱弱的代码... Html Agility Pack是一个开源项目,为网页提供了标准的DOM API和XPath导航.使用WebBrowser和HttpWebRequest下载的网页可以用Html Agility Pack来解析. HtmlAgilityPack的文档是CHM格式的,有时会无法正常阅读CHM格式的文件.如果是IE不能链接到您请求的网页或者打开后“页面无法显示”.请在要打开的CHM文件上右击属性,会在底下属性多了个“解除锁定”,单击后就…

使用HtmlAgilityPack爬取网站信息并存储到mysql

前言:打算做一个药材价格查询的功能,但刚开始一点数据都没有靠自己找信息录入的话很麻烦的,所以只有先到其它网站抓取存到数据库再开始做这个了. HtmlAgilityPack在c#里应该很多人用吧,简单又强大.之前也用它做过几个爬取信息的小工具.不过很久了源代码都没有了,都忘了怎么用了,这次也是一点一点找资料慢慢做出来的! (不过最麻烦的是将数据存到mysql,.net数据库我一直用的都是mssql,所以第一次做连接mysql遇到了好多问题.) 1.使用HtmlAgilityPack 下载HtmlA…

我最优惠网系列（1）——HTML 解析类库HtmlAgilityPack

0. 序言在开发我最优惠网的过程中,遇到一些问题和技术点,写出来和大家分享,也是我自己对近期工作的整理和记录,预计会有解析HTML类库.本地缓存.链接跳转和C#中执行js代码技巧等方面. 1. HtmlAgilityPack简介网站中首先遇到的问题是爬虫和解析HTML的问题,一般情况在获取页面少量信息的情况下,我们可以使用正则来精确匹配目标.不过本身正则表达式就比较复杂,同时正则表达式的精确程度很难拿捏,太精确和原网页耦合太严重,页面代码稍改动就会使正则无效:太宽泛的正则由可能会匹配目标过多…

使用HtmlAgilityPack抓取网页数据

XPath 使用路径表达式来选取 XML 文档中的节点或节点集.节点是通过沿着路径 (path) 或者步 (steps) 来选取的. 下面列出了最有用的路径表达式: nodename:选取此节点的所有子节点. /:从根节点选取. //:从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置. .:选取当前节点. ..:选取当前节点的父节点. 例如有下面一段XML: <?xml version="1.0" encoding="utf-8"?> <A…

解决HtmlAgilityPack无法获取form标签子节点的问题

问题描述今天使用HtmlAgilityPack提取Form表单下的input节点,发现提取的form节点没有子节点,InnerHtml也是为空,起初以为是标签不全导致,后来分析html代码发现不可能是这个问题,提取div标签正常,偏偏form标签有问题,最终从网上找到了答案. 解决方案在将html转为htmlDoc之前,添加: 1 HtmlNode.ElementsFlags.Remove("form"); 就可以正常提取到子节点的内容了,也就是: 1 2 3 4 5 6 Html…

HtmlAgilityPack解析全国区号页面到XML

需求:完成一个城市和区号的xml配置文件处理思路:通过HtmlAgilityPack解析一个区号页面,生产xml文件页面:http://www.hljboli.gov.cn/html/code.html 代码: public void LoadUrl(string url) { try { //Tab1 this.webBrowser1.Url = new Uri(url); HtmlWeb web = new HtmlWeb(); //不加这行中文会乱码 web.OverrideEncod…

HtmlAgilityPack

http://htmlagilitypack.codeplex.com/wikipage?title=Examples http://nuget.org/packages/HtmlAgilityPack HtmlAgilityPack.HtmlWeb web = new HtmlAgilityPack.HtmlWeb(); HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument(); doc.LoadHtml(pag…

【HtmlAgilityPack使用】的更多相关文章