C#采集代理服务器ip并设置IE代理--HtmlAgilityPack实战代码

今天在博客园看到一篇文章,说是C#采集某某的数据,其实做采集小软件很久了,

用的最好的还是HtmlAgilityPack,真的没话说,非常方便快捷。

这里有详细介绍[.Net解析html文档类库HtmlAgilityPack完整使用说明--采集软件开发尤其好用].

本文不做详细说明了。主要还是上代码啊。毕竟业务应用才是我们开发人员努力编码的最终目的,

谁也不会为了单纯写点代码就自我满足了,满足业务需求才是主要的。

最近朋友叫我帮忙写一个小程序,获取某个网站的代理。也不怕大家知道了,就是这个网站

http://www.youdaili.cn/   牛逼吧??好像你要批量的代理ip还得花钱买的。

但是现在我就告诉你不用花钱的方法,就是自己去复制,哈哈,开玩笑。

程序员都是懒人,谁会去复制,还是交给程序自动实现吧--那就是采集程序。

言归正传,今天就是主要介绍使用C#组件HtmlAgilityPack进行获取代理服务器ip和端口,

并手动设置到IE中的一个小程序。当然咯,开源哦。

代码萌点这里。百度网盘 http://pan.baidu.com/share/link?shareid=2118473016&uk=1765114824

流程很简单:打开主页,获取今天最新的代理网站地址,打开该链接,再去获取代理ip即可。

道理很简单,实现也很简单。

用程序打开网站主页http://www.youdaili.cn/  ,里面会有一个new的标示,但是我们不用这个标示,

我们用日期!这个最准确的。

我们可以看到08-19的最新代理就在那里。但是怎么让程序得到那?

首先我们可以用chrome的代码工具查看源代码,

我们想要得到的链接是在ul的li下面。

所有我们可以得到这样的正则表达式Xpath://ul/li/a

对应程序代码就是:

iplist = new List<Model.IpModel>();//我的实体

HtmlAgilityPack.HtmlWeb hw = new HtmlAgilityPack.HtmlWeb();//用的HtmlAgilityPack

hw.AutoDetectEncoding = false;

//现在下面的代码很重要。

HttpWebRequest req;

req = WebRequest.Create(new Uri(@"http://www.youdaili.cn/")) as HttpWebRequest;

req.Method = "GET";

HttpWebResponse rs = (HttpWebResponse)req.GetResponse();

System.IO.StreamReader sr = new StreamReader(rs.GetResponseStream(), System.Text.Encoding.GetEncoding("utf-8"));

try

{

HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument();

doc.Load(sr);

GetHrefs(doc); //然后就是上面所说的用的正则表达式了。

}

catch (Exception e)

{

Console.WriteLine(e.Message.ToString());

Console.WriteLine(e.StackTrace);

}

大家可能注意到上面标红的地方说明很重要。主要是youdaili.cn的网站编码有点问题。只有这样才能得出gb2312的网页源代码。

然后就是上面所说的用的正则表达式了。

private void GetHrefs(HtmlAgilityPack.HtmlDocument _doc)

{

string todaydaili = DateTime.Now.ToString("MM-dd");

HtmlNodeCollection hrefs = _doc.DocumentNode.SelectNodes("//ul/li/a");

if (hrefs == null)

return;

foreach (HtmlNode href in hrefs)

{

if (href.Attributes["title"] != null && href.Attributes["href"] != null)

{

string tilte = href.Attributes["title"].Value;

string urll = href.Attributes["href"].Value;

if (tilte.IndexOf(todaydaili) >= 0 && urll.Length > 0)

{

IpUrl model = new IpUrl();

if (urll.IndexOf("guonei") > 0)

{

model.DaiLi = 0;

model.Url = urll;

IpUrlList.Add(model);

}

if (urll.IndexOf("guowai") > 0)

{

model.DaiLi = 1;

model.Url = urll;

IpUrlList.Add(model);

}

}

}

}

string url = "";

int tmppage = 1;

foreach(IpUrl urla in IpUrlList)

{

for (int startpage = 1; startpage <= 10; startpage++)

{

this.lb_result.Text = "正在采集第" + tmppage.ToString() + "页IP列表请稍后.........";

url = urla.Url.Replace(".html","");

if (tmppage != 1)

{

url = url + "_" + startpage.ToString() + ".html";

}

else

{

url = url + ".html";

}

CaiJiIp(url, tmppage, urla.DaiLi);

tmppage++;

}

}

this.lb_result.Text = "本次采集采集完毕!";

this.btn_caiji.Enabled = true;

this.timer1.Stop();

}

采集之后,我现在是保存到内存,还没有实际保存数据,各位自行解决数据保存问题吧。

采集之后的代理数据,怎么使用概不负责。haha。

转发注明来源哦:IT分享 ***

 
 

HtmlAgilityPack实战代码的更多相关文章

  1. 看完让你彻底理解 WebSocket 原理,附完整的实战代码(包含前端和后端)

    1.前言 最近有同学问我有没有做过在线咨询功能.同时,公司也刚好让我接手一个 IM 项目.所以今天抽时间记录一下最近学习的内容.本文主要剖析了 WebSocket 的原理,以及附上一个完整的聊天室实战 ...

  2. DOM基础操作实战代码

    对于已经讲解给大家的DOM实战,我今天给大家几个实战代码,可以让大家加深对此的理解! 1.用DOM动态生成这样一个结构: <div class=”example”> <p class ...

  3. Magenta Demos Magenta 实战代码

    Magenta 实战代码 这个仓库包含了很多 Magenta 模型的实现.看 Magenta 库以及模型,看我们的主仓库:https://github.com/tensorflow/magenta A ...

  4. Scala零基础教学【90-101】Akka 实战-代码实现

    第90讲:基于Scala的Actor之上的分布式并发消息驱动框架Akka初体验 akka在业界使用非常广泛 spark背后就是由akka驱动的 要写消息驱动的编程模型都首推akka 下面将用30讲讲解 ...

  5. JavaScript正则表达式的模式匹配教程,并且附带充足的实战代码

    JavaScript正则表达式的模式匹配 引言 正文 一.正则表达式定义 二.正则表达式的使用 三.RegExp直接量 (1)正则表达式初体验 (2)深入了解正则 字符类 重复 选择 分组与引用 指定 ...

  6. 【实战代码】PHP实现读取一个1G的文件大小

    本文地址:http://www.cnblogs.com/aiweixiao/p/7535351.html 欢迎关注我的微信公众号哈 “ 程序员的文娱情怀” http://t.cn/RotyZtu [背 ...

  7. dubbo项目实战代码展示

    最近公司项目使用dubbo服务,于是就去网上搜索关于dubbo的相关资料,真的很多,但是对于很多人并不是很了解框架或者 不是太适合新手的片段代码,于是我就根据项目的相关内容把dubbo部分单独切出来, ...

  8. python实战===代码

    #!/usr/bin/env python # encoding:utf-8 import requests import json from conf import STORE_DICT_LIST ...

  9. C基础 时间业务实战代码

    引言 业务代码中遇到这样需求, 1. 二者是同一天吗, 2. 时间戳和时间串来回转, 3. 其它扩展需求 等. C写代码同样需要处理这方面时间问题. 本文就是为了解决这个问题. 相比其它时间库, 这里 ...

随机推荐

  1. 利用svn自动同步更新到网站服务器 -- 网摘

    首先在服务器上安装VisualSVN Server ,根据提示选好安装的路径,一路确定.安装好后运行VisualSVN Server ,在Repositories上点击右键,选择create New ...

  2. Webservice中使用Session、Application

    原文:Webservice中使用Session.Application 在Asp.Net 2.0里,已经能够在WebMethod里使用 Session . Application 这种服务器变量了.一 ...

  3. server正式的环境性能测试nginx-php 指着寻求突破的表现

    因为我是第三级城市语言.无法接触到更牛接触逼公司或环境.这是你母亲的现场环境摸过几次.截至完毕,测试已设法提高空间. 公司须要的站点执行环境.不能由于我这边的瓶颈而阻碍了公司进行,希望各位大能能不吝惜 ...

  4. .net 职责链来实现 插件模式

    .net 职责链来实现 插件模式 插件式的例子 QQ电脑管家,有很多工具列表,点一下工具下载后就可以开始使用了 eclipse ,X Server 等等 插件式的好处 插件降低框架的复杂性,把扩展功能 ...

  5. PHP通过OpenSSL生成证书、密钥并且加密解密数据,以及公钥,私钥和数字签名的理解

    一.公钥加密假设一下,我找了两个数字,一个是1,一个是2.我喜欢2这个数字,就保留起来,不告诉你们(私钥),然后我告诉大家,1是我的公钥. 我有一个文件,不能让别人看,我就用1加密了.别人找到了这个文 ...

  6. ASP.NET 5 Overview

    ASP.NET 5概观 (ASP.NET 5 Overview) http://www.asp.net/vnext/overview/aspnet-vnext/aspnet-5-overview AS ...

  7. SQL点滴23—T-SQL中的除法

    原文:SQL点滴23-T-SQL中的除法 在T-SQL中没有除法运算,但是在T-SQL中可以实现类似除法的操作Divide.一般除法操作的结果一个列来自于被除关系表,剩下的来自除关系表.这里举一个例子 ...

  8. Eclipse 使用技巧合辑

    修改Eclipse默认JDK "window"(窗口)---"Preferences.."(首选项),然后在弹出的对话框中的左边:选"Java&quo ...

  9. 安装SQL Server 2005 - 初学者系列 - 学习者系列文章

    初学者阶段,建议从数据库为基础入手进行学习. 下面介绍微软的SQL Server 2005数据库的安装. 首先,从下列地址获取SQL Server 2005的安装程序. ed2k://|file|cs ...

  10. [置顶] NB多项式事件模型、神经网络、SVM之函数/几何间隔——斯坦福ML公开课笔记6

    转载请注明:http://blog.csdn.net/xinzhangyanxiang/article/details/9722701 本篇笔记针对斯坦福ML公开课的第6个视频,主要内容包括朴素贝叶斯 ...