简单的网页采集程序（ASP.NET MVC4）

因为懒人太多，造成现在网页数据采集非常的流行，我也来写个简单的记录一下。

之前写了MVC的基本框架的搭建随笔，后面因为公司太忙，个人感情问题:(，导致不想写了，就写了两篇给删除了，现在就搁浅了，

本人是马鞍山人，喜欢看看老家的招聘信息，看看我有没有机会回家发展，回家找妹子:），这是马鞍山的招聘网站 http://www.masrc.com.cn/

因他的一些信息只显示单位不显示具体的招聘职位，所以我闲着蛋疼，我就想做一个采集站，将数据采集出来，好方便浏览..

下面就是显示的页面，对我这个写代码的来说，根本找不到关于我的职位呀，一个一个的点多累啊，而且他的搜索有点问题，总搜索不出我要的....

看他的HTML代码：

基本都table加A标签的组合，家乡的网站，我就不吐槽了....

注意他的链接格式记录一下: <a class="black_9" href="*">*</a>

开始写代码吧...

我用的是VS2012 + ASP.NET MVC4，请忽略这些细节....

因为不需要默认的样式，所以选择一个空的ASP.NET MVC项目

下面是目录结构

新建一个HomeControllers并建立一个基础Action Index (mvc基础就不讲了，重点是采集对吧)

接下来，根据上面分析的链接方式<a class="black_9" href="*">*</a>

写一段采集需要的正则表达式

            string htmlregstr = @"(?is)<a[^>]*?href=(['""]?)(?<url>[^'""\s>]+)?[^>]*><font[^>]*>(?<text>(?:(?!</?a\b).)*)</font></a>";//分组

这段正则表达式将我需要的信息作了分组，比如说href的指向链接url 和a标签的text文本 在我需要的链接都有，所以需要去掉

现在初步的思路是将web页面的当中的a标签通过这个正则全部取出

先查看该网站文本的编码方式，在获取文本流时需要

如图，该网站用的gb2312的编码方式

下面是采集的代码有注释：

using System;

using System.Collections.Generic;

using System.IO;

using System.Linq;

using System.Net;

using System.Text.RegularExpressions;

using System.Web;

using System.Web.Mvc;

namespace YanNis.WebSite.Collect.MasRC.Controllers

{

    public class HomeController : Controller

    {

        public ActionResult Index()

        {

            //a标签的正则

            string htmlregstr = @"(?is)<a[^>]*?href=(['""]?)(?<url>[^'""\s>]+)?[^>]*><font[^>]*>(?<text>(?:(?!</?a\b).)*)</font></a>";//分组

            //需要采集的页面地址

            string WebLink = "http://www.masrc.com.cn/";

            //创建一个请求

            WebRequest webReq = System.Net.WebRequest.Create(WebLink);

            //获取响应

            WebResponse webRes = webReq.GetResponse();

            //使用GB2312的编码方式 获取响应的文本流

            StreamReader sReader = new StreamReader(webRes.GetResponseStream(), System.Text.Encoding.GetEncoding("gb2312"));

            //将文本读出

            string content = sReader.ReadToEnd();

            //正则匹配

            MatchCollection matchCollecti = Regex.Matches(content, htmlregstr, RegexOptions.IgnoreCase | RegexOptions.Multiline | RegexOptions.Singleline);

            //创建一个Model用于前台查看

            List<WebLink> WebLinks = new List<WebLink>();

            //遍历每一个匹配

            foreach (Match ma in matchCollecti)

            {

                //获取重要的信息

                string title = ma.Groups["text"].Value;

                string link = ma.Groups["url"].Value;

                //因为需要的链接地址都有showMemberzpDetail.asp  所以用他做为过滤

                if (ma.Success && link.IndexOf("showMemberzpDetail") >= )

                {

                    WebLinks.Add(new WebLink

                    {

                        Title = title,

                        Url = link

                    });

                }

            }

            //返回 MODEL

            return View(WebLinks);

        }

    }

    public class WebLink

    {

        public WebLink()

        {

            Desc = new List<WebLink>();

        }

        public string Title { get; set; }

        public string Url { get; set; }

        public List<WebLink> Desc { get; set; }

    }

}

View代码：

@model IEnumerable<YanNis.WebSite.Collect.MasRC.Controllers.WebLink>

<!DOCTYPE html>

<html>

<head>

    <meta name="viewport" content="width=device-width" />

    <title>Index</title>

</head>

<body>

    <div>

        <ul>

            @foreach (var m in Model)

            {

                <li><a href="@m.Url">@m.Title</a></li>

            }

        </ul>

    </div>

</body>

</html>

效果如下：

已经获取了，接下来就要去找到链接页面的详细岗位了，如图：

惯例,查看他的链接代码

还是一样 table+a的组合

还是刚刚那个正则，但是没有font这个标签所以稍加改动

        string Detailhtmlregstr = @"(?is)<a[^>]*?href=(['""]?)(?<url>[^'""\s>]+)?[^>]*>(?<text>(?:(?!</?a\b).)*)</a>";

接下来的思路是根据获取指向的链接的页面，将岗位的链接获取在手

using System;

using System.Collections.Generic;

using System.IO;

using System.Linq;

using System.Net;

using System.Text.RegularExpressions;

using System.Web;

using System.Web.Mvc;

namespace YanNis.WebSite.Collect.MasRC.Controllers

{

    public class HomeController : Controller

    {

        string htmlregstr = @"(?is)<a[^>]*?href=(['""]?)(?<url>[^'""\s>]+)?[^>]*><font[^>]*>(?<text>(?:(?!</?a\b).)*)</font></a>";

        string Detailhtmlregstr = @"(?is)<a[^>]*?href=(['""]?)(?<url>[^'""\s>]+)?[^>]*>(?<text>(?:(?!</?a\b).)*)</a>";

        public ActionResult Index()

        {

            //a标签的正则

            //需要采集的页面地址

            string url = "http://www.masrc.com.cn/";

            //创建一个请求

            WebRequest webReq = System.Net.WebRequest.Create(url);

            //获取响应

            WebResponse webRes = webReq.GetResponse();

            //使用GB2312的编码方式 获取响应的文本流

            StreamReader sReader = new StreamReader(webRes.GetResponseStream(), System.Text.Encoding.GetEncoding("gb2312"));

            //将文本读出

            string content = sReader.ReadToEnd();

            //正则匹配

            MatchCollection matchCollecti = Regex.Matches(content, htmlregstr, RegexOptions.IgnoreCase | RegexOptions.Multiline | RegexOptions.Singleline);

            //创建一个Model用于前台查看

            List<WebLink> WebLinks = new List<WebLink>();

            //遍历每一个匹配

            foreach (Match ma in matchCollecti)

            {

                //获取重要的信息

                string title = ma.Groups["text"].Value;

                string link = ma.Groups["url"].Value;

                //因为需要的链接地址都有showMemberzpDetail.asp  所以用他做为过滤

                if (ma.Success && link.IndexOf("showMemberzpDetail") >= )

                {

                    WebLinks.Add(new WebLink

                    {

                        Title = title,

                        Url = url + link,

                        Desc = GetDetailData(url + link)

                    });

                }

            }

            //返回 MODEL

            return View(WebLinks);

        }

        public List<WebLink> GetDetailData(string url)

        {

            //创建一个请求

            WebRequest webReq = System.Net.WebRequest.Create(url);

            //获取响应

            WebResponse webRes = webReq.GetResponse();

            //使用GB2312的编码方式 获取响应的文本流

            StreamReader sReader = new StreamReader(webRes.GetResponseStream(), System.Text.Encoding.GetEncoding("gb2312"));

            //将文本读出

            string content = sReader.ReadToEnd();

            //正则匹配

            MatchCollection matchCollecti = Regex.Matches(content, Detailhtmlregstr, RegexOptions.IgnoreCase | RegexOptions.Multiline | RegexOptions.Singleline);

            //创建一个Model用于前台查看

            List<WebLink> WebLinks = new List<WebLink>();

            //遍历每一个匹配

            foreach (Match ma in matchCollecti)

            {

                //获取重要的信息

                string title = ma.Groups["text"].Value;

                string link = ma.Groups["url"].Value;

                //因为需要的链接地址都有showMemberzpDetail.asp  所以用他做为过滤

                if (ma.Success && link.IndexOf("showPosDetail_new") >= )

                {

                    WebLinks.Add(new WebLink

                    {

                        Title = title,

                        Url = url + link

                    });

                }

            }

            return WebLinks;

        }

    }

    public class WebLink

    {

        public WebLink()

        {

            Desc = new List<WebLink>();

        }

        public string Title { get; set; }

        public string Url { get; set; }

        public List<WebLink> Desc { get; set; }

    }

}

VIEW代码

@model IEnumerable<YanNis.WebSite.Collect.MasRC.Controllers.WebLinks>

<!DOCTYPE html>

<html>

<head>

    <meta name="viewport" content="width=device-width" />

    <title>Index</title>

</head>

<body>

    <div>

        <ul>

            @foreach (var m in Model)

            {

                <li><a href="@m.Url">@m.Title</a>

                    <ul>

                        @foreach (var n in m.Desc)

                        {

                          <li><a href="@n.Url">@n.Title</a></li>

                        }

                    </ul>

                </li>

            }

        </ul>

    </div>

</body>

</html>

效果：

有没有发现其实Controller里有很多相同重复的代码，我们可以将其简化，增加可读性，使用递归去获取

简化后的代码:

using System;

using System.Collections.Generic;

using System.IO;

using System.Linq;

using System.Net;

using System.Text.RegularExpressions;

using System.Web;

using System.Web.Mvc;

namespace YanNis.WebSite.Collect.MasRC.Controllers

{

    public class HomeController : Controller

    {

        string urllink = "http://www.masrc.com.cn/";

        public ActionResult Index()

        {

            string htmlregstr = @"(?is)<a[^>]*?href=(['""]?)(?<url>[^'""\s>]+)?[^>]*><font[^>]*>(?<text>(?:(?!</?a\b).)*)</font></a>";

            List<WebLinks> WebLinks = GetDetailData("", htmlregstr, "showMemberzpDetail");

            //返回 MODEL

            return View(WebLinks);

        }

        public List<WebLinks> GetDetailData(string url, string Regstr, string Filterstr)

        {

            if (url == "")

                url = urllink;

            //创建一个请求

            WebRequest webReq = System.Net.WebRequest.Create(url);

            //获取响应

            WebResponse webRes = webReq.GetResponse();

            //使用GB2312的编码方式 获取响应的文本流

            StreamReader sReader = new StreamReader(webRes.GetResponseStream(), System.Text.Encoding.GetEncoding("gb2312"));

            //将文本读出

            string content = sReader.ReadToEnd();

            //正则匹配

            MatchCollection matchCollecti = Regex.Matches(content, Regstr, RegexOptions.IgnoreCase | RegexOptions.Multiline | RegexOptions.Singleline);

            //创建一个Model用于前台查看

            List<WebLinks> WebLinks = new List<WebLinks>();

            //没有了<font> 增加一个<td>

            string Detailhtmlregstr = @"(?is)<a[^>]*?href=(['""]?)(?<url>[^'""\s>]+)?[^>]*>(?<text>(?:(?!</?a\b).)*)</a>";

            //遍历每一个匹配

            foreach (Match ma in matchCollecti)

            {

                //获取重要的信息

                string title = ma.Groups["text"].Value;

                string link = ma.Groups["url"].Value;

                //过滤

                if (ma.Success && link.IndexOf(Filterstr) >= )

                {

                    WebLinks w = new WebLinks()

                    {

                        Title = title,

                        Url = urllink + link

                    };

                    if (Filterstr != "showPosDetail_new")

                        w.Desc = GetDetailData(w.Url, Detailhtmlregstr, "showPosDetail_new");

                    WebLinks.Add(w);

                }

            }

            return WebLinks;

        }

    }

    public class WebLinks

    {

        public WebLinks()

        {

            Desc = new List<WebLinks>();

        }

        public string Title { get; set; }

        public string Url { get; set; }

        public List<WebLinks> Desc { get; set; }

    }

}

很简单吧，采集是多么的简单呀

如何防采集呢，可以学习学习淘宝，之前通过淘宝客链接采集过淘宝的页面，普通办法是无法采集到，只能获取空白的页面，是通过添加修改HEADERS才能获取到，可以借鉴一下。明天就把怎么通过淘宝客的链接获取淘宝宝贝详情页的方法给放出来，我有可能会忘记哦^^

这段代码是作为演示，代码可以继续优化，增加可读性和响应速度，也可改为AJAX异步获取...

简单的网页采集程序（ASP.NET MVC4）的更多相关文章

简单的java采集程序二
继[简单的java采集程序],这里将完成对整个网站的号码段的采集任务. [使用预编译+批处理采集网页内容至数据库表中] 在之前我们用statement类来创建sql语句的执行对象,以 ...
简单java采集程序一
[目标任务]通过该网站采集全国的手机号码段至数据库表中 [完成过程] 1.初涉正则表达式,学会写简单的正则表达式 2.获取单个网页内容,学会java中基本的IO流 3.将获取数据插入mysql数据库表 ...
初入码田--ASP.NET MVC4 Web应用之创建一个空白的MVC应用程序
初入码田--ASP.NET MVC4 Web应用开发之一实现简单的登录初入码田--ASP.NET MVC4 Web应用开发之二实现简单的增删改查 2016-07-29 在此之前,需要一台电脑( ...
构建ASP.NET MVC4+EF5+EasyUI+Unity2.x注入的后台管理系统（37）-文章发布系统④-百万级数据和千万级数据简单测试
原文:构建ASP.NET MVC4+EF5+EasyUI+Unity2.x注入的后台管理系统(37)-文章发布系统④-百万级数据和千万级数据简单测试系列目录我想测试EF在一百万条数据下的显示时间! ...
ASP.NET MVC4简单使用ELMAH记录系统日志
ASP.NET MVC4简单使用ELMAH记录系统日志前言在项目开发.测试以及已经上线的项目中都会存在bug,而如果我们在项目的各个阶段都能及时的监控系统出现的任何问题,那么对于我们开发人员来说完 ...
初入码田--ASP.NET MVC4 Web应用开发之二实现简单的增删改查
初入码田--ASP.NET MVC4 Web应用之创建一个空白的MVC应用程序初入码田--ASP.NET MVC4 Web应用开发之一实现简单的登录 2016-07-29 一.创建M002Adm ...
初入码田--ASP.NET MVC4 Web应用开发之一实现简单的登录
初入码田--ASP.NET MVC4 Web应用之创建一个空白的MVC应用程序初入码田--ASP.NET MVC4 Web应用开发之二实现简单的增删改查 2016-07-24 一.创建T4模板,建 ...
asp.net mvc4 过滤器的简单应用：登录验证
直接上代码,不要说话. ASP.NET MVC4过滤器的简单应用:验证登录 [AcceptVerbs(HttpVerbs.Post)] public ActionResult login(FormCo ...
windows server 2012 r2 iis8.5 部署asp.net mvc4/5程序小结
windows server 2012 r2 iis8.5 部署asp.net mvc4/5程序小结原文链接:http://www.xuanhun521.com/Blog/66d491f8-b479 ...

随机推荐

111_leetcode_Best Time to Buy and Sell Stock III
Say you have an array for which the ith element is the price of a given stock on day i. Design an al ...
标准I/O库之临时文件
ISO C标准I/O库提供了两个函数以帮助创建临时文件. #include <stdio.h> char *tmpnam( char *ptr ); 返回值:指向唯一路径名的指针 FILE ...
10465 - Homer Simpson 贪心
Homer Simpson Time Limit: 3 seconds Memory Limit: 32 MB Home ...
keepalived + haproxy 实现web 双主模型的高可用负载均衡--转
原创作品,允许转载,转载时请务必以超链接形式标明文章原始出处 .作者信息和本声明.否则将追究法律责任.http://xz159065974.blog.51cto.com/8618592/140581 ...
第一个html程序
<html><head><title> 表单</title> </head><body><form action=&quo ...
使用AOP 实现Redis缓存注解，支持SPEL
公司项目对Redis使用比较多,因为之前没有做AOP,所以缓存逻辑和业务逻辑交织在一起,维护比较艰难所以最近实现了针对于Redis的@Cacheable,把缓存的对象依照类别分别存放到redis的Ha ...
阿里云ECS被攻击
今天发现阿里云ECS被攻击了,记录一下, /1.1 Match1:{ :;};/usr/bin/perl -e 'print .content-type: text/plain.r.n.r.nxsuc ...
C#微信公众号开发 -- （七）自定义菜单事件之VIEW及网页（OAuth2.0）授权
通俗来讲VIEW其实就是我们在C#中常用的a标签,可以直接在自定义菜单URL的属性里面写上需要跳转的链接,也即为单纯的跳转. 但更多的情况下,我们是想通过VIEW来进入指定的页面并进行操作. 举一个简 ...
java中collection、map、set、list简介（转）
Collection接口 Collection是最基本的集合接口,一个Collection代表一组Object,即Collection的元素(Elements).一些Collection允许相同的元 ...
Ext.Net学习笔记12：Ext.Net GridPanel Filter用法
Ext.Net学习笔记12:Ext.Net GridPanel Filter用法 Ext.Net GridPanel的用法在上一篇中已经介绍过,这篇笔记讲介绍Filter的用法. Filter是用来过 ...

简单的网页采集程序（ASP.NET MVC4）

简单的网页采集程序（ASP.NET MVC4）的更多相关文章

随机推荐

热门专题