1. 要想获取指定连接的数据,那么就得使用HtmlDocument对象,要想使用HtmlDocument对象就必需引用using
HtmlAgilityPack;

2. 详细步骤如下:

    步骤一:

        获取链接地址内容:

        var html =HttpDownLoadHelper.GetUtf8Html("链接地址");

HttpDownLoadHelper类中的内容如下:

public
class
HttpDownLoadHelper

{


///
<summary>


///
根据URL获取一个页面的Html内容


///
</summary>


///
<param name="url"></param>


///
<returns></returns>


public
static
string
GetUtf8Html(string
url)

{


WebClient
wc
=
new
WebClient();


wc.Encoding
=
Encoding.UTF8;


var
html
=
wc.DownloadString(url);


return
html;

}

}

    步骤二:

        判断获取到的内容是否为空?

    步骤三:

        获取数据:

            ·实例化"HtmlDocument
【HTML文档】"对象

                HtmlDocument
doc
=
new
HtmlDocument();

            ·载入获取到的内容

                doc.LoadHtml(html);

            ·获取文档中的根节点

                HtmlNode
rootNode
=
doc.DocumentNode;

            ·从根节点中通过标签获取指定的内容。

    HtmlNodeCollection
titleNodes
=
rootNode.SelectNodes("对应的标签");

        存储数据:

            ·创建一个存放数据的List集合

            List<NewsList>
newsList=new
List<NewsList>();

NewsList对象的代码如下:

            public
class
NewsList

        {

        public
string
Title { get; set; }

        public
string
Url { get; set; }

        }    

            ·将数据添加到集合中:

            foreach (var
title
in
titleNodes)

{


NewsList
news=new
NewsList();


news.Title
=
title.GetAttributeValue("title", "");

                        // title是标签的属性

news.Url="http://www.yulinu.edu.cn"+title.GetAttributeValue("href", "");

                        //href是标签的属性。


newsList.Add(news);

}

 

具体事例:【获取榆林学院首页中的新闻列表】

·引用using
HtmlAgilityPack;

HtmlAgilityPack.dll的下载地址:http://htmlagilitypack.codeplex.com/【里面有支持各种.NET Framework的版本的dll。】

·主方法:

public
static
void
Main(string[] args)

{


//创建一个存放新闻的List集合    


List<NewsList>
newsList=new
List<NewsList>();


//根据url获取一个页面的Html内容。


var
html
=
HttpDownLoadHelper.GetUtf8Html("http://www.yulinu.edu.cn/news.jsp?urltype=tree.TreeTempUrl&wbtreeid=1036");


//判断是否为空


if (!string.IsNullOrEmpty(html))

{


HtmlDocument
doc
=
new
HtmlDocument(); //实例化html实例对象


doc.LoadHtml(html);//载入html文档


HtmlNode
rootNode
=
doc.DocumentNode; //获取文档中的根节点


//从根节点中通过标签获取指定的内容。


HtmlNodeCollection
titleNodes
=
rootNode.SelectNodes("//div[@class='Classbox List']/ul/li/a");


foreach (var
title
in
titleNodes)

{


NewsList
news=new
NewsList();


news.Title
=
title.GetAttributeValue("title", "");


news.Url
=
"http://www.yulinu.edu.cn"
+
title.GetAttributeValue("href", "");


newsList.Add(news);

}

}


//输出标题和地址


foreach (var
list
in
newsList)

{


Console.WriteLine("新闻标题为:{0},新闻链接地址为:{1}",list.Title,list.Url);

}


Console.WriteLine("总共有{0}条新闻",newsList.Count);


Console.ReadKey();

}

·HttpDownLoadHelper代码如下:

    public
class
HttpDownLoadHelper

{


///
<summary>


///
根据URL获取一个页面的Html内容


///
</summary>


///
<param name="url"></param>


///
<returns></returns>


public
static
string
GetUtf8Html(string
url)

{


WebClient
wc
=
new
WebClient();


wc.Encoding
=
Encoding.UTF8;


var
html
=
wc.DownloadString(url);


return
html;

}

}

·NewsList代码如下:

public
class
NewsList

{


public
string
Title { get; set; }


public
string
Url { get; set; }

}

[爬虫]通过url获取连接地址中的数据的更多相关文章

  1. 获取给定地址中的域名,substring()截取

    package seday01;/** * 获取给定地址中的域名 * @author xingsir */public class Test { public static void main(Str ...

  2. 项目中通过Sorlj获取索引库中的数据

    在开发项目中通过使用Solr所提供的Solrj(java客户端)获取索引库中的数据,这才是真正对项目起实质性作用的功能,提升平台的检索性能及检索结果的精确性 第一步,引入相关依赖的jar包 第二步,根 ...

  3. asp.net网页上获取其中表格中的数据(爬数据)

    下面的方法获取页面中表格数据,每个页面不相同,获取的方式(主要是正则表达式)不一样,只是提供方法参考.大神勿喷,刚使用了,就记下来了. 其中数据怎么存,主要就看着怎么使用了.只是方便记录就都放在lis ...

  4. vue父组件中获取子组件中的数据

    <FormItem label="上传头像" prop="image"> <uploadImg :width="150" ...

  5. Mysql字符串截取_获取指定字符串中的数据

    前言:本人遇到一个需求,需要在MySql的字段中截取一段字符串中的特定字符,类似于正则表达式的截取,苦于没有合适的方法,百度之后终于找到一个合适的方法:substring_index('www.sql ...

  6. win10连接无线网,开启移动热点,手机连接它手机一直显示获取ip地址中。

    *必须要有无线网卡才能设置WIFI首先打开电脑,选中“计算机”或者“我的电脑”,右击进入“管理”选项“.打开“计算机管理”窗口之后,在左栏菜单选项中找到“服务和应用程序”下的“服务”选项,如图点击进入 ...

  7. 如何获取 C# 类中发生数据变化的属性信息

    一.前言 在平时的开发中,当用户修改数据时,一直没有很好的办法来记录具体修改了那些信息,只能暂时采用将类序列化成 json 字符串,然后全塞入到日志中的方式,此时如果我们想要知道用户具体改变了哪几个字 ...

  8. C# 如何获取SQL Server 中指定数据表的所有字段名和字段类型

    如何获取指定数据表的所有字段名和字段类型.SqlConnection.GetSchema方法有2个重载形式,获取指定数据表的所有字段名和字段类型的秘密就在GetSchema (String, Stri ...

  9. c# 通过URl 获取返回的json格式数据

    方法一 http://blog.csdn.net/angle_greensky110/article/details/52209497 protected string GetJson(string ...

随机推荐

  1. asp.net 多站点共享FormAuthentication

    <authentication mode="Forms"> <forms  domain="lizhanglong.com" timeout= ...

  2. 未能从程序集“System.ServiceModel, Version=3.0.0.0”中加载类型“System.ServiceModel.Activation.HttpModule” 的解决办法

    未能从程序集“System.ServiceModel, Version=3.0.0.0, Culture=neutral, PublicKeyToken=b77a5c561934e089”中加载类型“ ...

  3. 吝啬的国度(dfs+vector)

    吝啬的国度 时间限制:1000 ms  |  内存限制:65535 KB 难度:3   描述 在一个吝啬的国度里有N个城市,这N个城市间只有N-1条路把这个N个城市连接起来.现在,Tom在第S号城市, ...

  4. Android animation学习笔记之view/drawable animation

    前一章中总结了android animation中property animation的知识和用法,这一章总结View animation和Drawable animation的有关知识: View ...

  5. sae上屏蔽错误显示并查看错误日志

    首先应用上线之前肯定要屏蔽错误显示的, 登录sae,点进去你的应用, 关闭之后进入日志管理当前的当前版本 在http中可以查看各个级别的日志记录了

  6. Android 怎样在linux kernel 中读写文件

    前言          欢迎大家我分享和推荐好用的代码段~~ 声明          欢迎转载,但请保留文章原始出处:          CSDN:http://www.csdn.net        ...

  7. hdu 5040 BFS 多维化处理图

    http://acm.hdu.edu.cn/showproblem.php?pid=5040 跟这一题http://blog.csdn.net/u011026968/article/details/3 ...

  8. 2.词法结构-JavaScript权威指南笔记

    今天是第二章.所谓词法结构(lexical structure),就是写代码中最基本的东西,变量命名,注释,语句分隔等,这是抄书抄的... 1.字符集,必须是Unicode,反正Unicode是ASC ...

  9. sql Servers数据库基础

    1. 数据库约束包含:     ·非空约束     ·主键约束(PK) primary key constraint 唯一且不为空     ·唯一约束(UQ) unique constraint 唯一 ...

  10. [转]Ubuntu 软件安装、查找、卸载--apt-get、apt-cache命令安全

    # apt-get update——在修改/etc/apt/sources.list或者/etc/apt/preferences之後运行该命令.此外您需要定期运行这一命令以确保您的软件包列表是最新的. ...