爬虫技术 -- 进阶学习（七）简单爬虫抓取示例（附c#代码）

这是我的第一个爬虫代码。。。算是一份测试版的代码。大牛大神别喷。。。

通过给定一个初始的地址startPiont然后对网页进行捕捉，然后通过正则表达式对网址进行匹配。

List<string> todo ：进行抓取的网址的集合

List<string> visited ：已经访问过的网址的集合

下面实现的是，给定一个初始地址，然后进行爬虫，输出正在访问的网址和已经访问的网页的个数。

需要注意的是，下面代码实现的链接匹配页面的内容如图一、图二所示：

图一：

图二：

简单代码示范如下：（测试版）

using System;

using System.Collections.Generic;

using System.ComponentModel;

using System.Data;

using System.Drawing;

using System.Linq;

using System.Text;

using System.Windows.Forms;

using System.Web.Security;

using System.IO;

using System.Net;

using System.Text.RegularExpressions;

using System.Web;

namespace Demo1

{

    public partial class Form1 : Form

    {

        public Form1()

        {

            InitializeComponent();

         }

        private void button1_Click(object sender, EventArgs e)

        {

            Test1 a = new Test1();

            a.getCurrentURL();

        }

        public class Test1

        {

            List<string> todo = new List<string>();

            List<string> visited = new List<string>();

            string startPoint = "http://www.cnblogs.com/lmei/";

            
            public void getCurrentURL()

            {

                RequestSite(startPoint);

                while (todo.Count > ) 
                {

                    string currentURL = todo[];

                    RequestSite(currentURL);

                    if (visited.Contains(currentURL))  //注释1

                    {

                        Console.WriteLine("已经访问过了" + currentURL);

                        todo.Remove((currentURL));

                    }

                    else

                    {

                        Console.WriteLine("现在正在访问：===>   " + currentURL);

                        visited.Add(currentURL);

                        Console.WriteLine("目前已经访问了：===>   " + visited.Count + "个网页" );

                        todo.Remove((currentURL));

                    }

                }

            }

            public void RequestSite(string url)

            {

                WebRequest req = WebRequest.Create(url);

                HttpWebResponse res;

                try{

                      res = (HttpWebResponse)(req.GetResponse());

                }

                catch (WebException ex) { res = (HttpWebResponse)ex.Response; }

                Stream st = res.GetResponseStream();

                StreamReader rdr = new StreamReader(st);

                string s = rdr.ReadToEnd();

                todo.AddRange(GetLink(s));

            }

            List<string> GetLink(string htmlPage)

            {

                Regex regx =

                    new Regex("http://www\\.cnblogs\\.com\\/lmei\\/p\\/[0-9a-zA-Z]+\\.html*" ,RegexOptions.IgnoreCase);

                MatchCollection matches = regx.Matches(htmlPage);

                List<string> results = new List<string>();

                foreach (Match match in matches)

                {

                    if (!visited.Contains(match.Value)) //注释2

                    {

                        results.Add(match.Value);

                    }

                }

                return results;

            }

        }

    }

}

注释1 ：是将已经访问过的网址排除。

注释2 ：是将已经访问过的网址排除，但是可能由于同个网页中包含的两个（或两个以上）相同的链接，而且都没被访问过的，这样使得todo队列中会有相同的网址，所以需要注释1那部分进行再次过滤排除。其实也可以将注释2那部分删去，直接让注释1过滤就行。

接下来会进一步补充爬虫抓取的内容。。。

爬虫技术 -- 进阶学习（七）简单爬虫抓取示例（附c#代码）的更多相关文章

爬虫技术 -- 进阶学习（十）网易新闻页面信息抓取（htmlagilitypack搭配scrapysharp）
最近在弄网页爬虫这方面的,上网看到关于htmlagilitypack搭配scrapysharp的文章,于是决定试一试~ 于是到https://www.nuget.org/packages/Scrapy ...
爬虫技术（四）-- 简单爬虫抓取示例（附c#代码）
这是我的第一个爬虫代码...算是一份测试版的代码.大牛大神别喷... 通过给定一个初始的地址startPiont然后对网页进行捕捉,然后通过正则表达式对网址进行匹配. List<string&g ...
爬虫技术 -- 进阶学习（九）使用HtmlAgilityPack获取页面链接（附c#代码及插件下载）
菜鸟HtmlAgilityPack初体验...弱弱的代码... Html Agility Pack是一个开源项目,为网页提供了标准的DOM API和XPath导航.使用WebBrowser和HttpW ...
爬虫技术 -- 进阶学习（十一）【补充】获取html中meta标签中的content的内容
上一篇网易新闻页面信息抓取 -- htmlagilitypack搭配scrapysharp中提及了很多如何快速抓取html中的文本的语句, 但是meta标签中的content内容的抓取,没有提及到! ...
爬虫技术 -- 进阶学习（八）模拟简单浏览器（附c#代码）
由于最近在做毕业设计,需要用到一些简单的浏览器功能,于是学习了一下,顺便写篇博客~~大牛请勿喷,菜鸟练练手~ 实现界面如下:(简单朴素版@_@||) button_go实现如下: private vo ...
爬虫技术 -- 基础学习（一）HTML规范化（附特殊字符编码表）
最近在做网页信息提取这方面的,由于没接触过这系列的知识点,所以逛博客,看文档~~看着finallyly大神的博文和文档,边看边学习边总结~~ 对网站页面进行信息提取,需要进行页面解析,解析的方法有以下 ...
爬虫学习一系列：urllib2抓取网页内容
爬虫学习一系列:urllib2抓取网页内容所谓网页抓取,就是把URL地址中指定的网络资源从网络中读取出来,保存到本地.我们平时在浏览器中通过网址浏览网页,只不过我们看到的是解析过的页面效果,而通过程 ...
python3爬虫再探之豆瓣影评数据抓取
一个关于豆瓣影评的爬虫,涉及:模拟登陆,翻页抓取.直接上代码: import re import time import requests import xlsxwriter from bs4 imp ...
[python应用]python简单图片抓取
前言 emmmm python简单图片抓取 1 import requests 2 import threading 3 import queue 4 from subprocess import P ...

随机推荐

Mybatis多参传递的四种解决方案
Mybatis多参传递的四种解决方案代码异常:org.apache.ibatis.binding.BindingException: Parameter 'param' not found. 长时间 ...
智能配置item
iTerm配置说明 ==== **这是一个很智能的配置,不论你电脑里面有没有安装iTerm,不管你有没有.zshrc配置文件,git配置文件,git忽略文件,以及git的默认编辑器都已经更改为vim, ...
mysql组合索引与字段顺序
很多时候,我们在mysql中创建了索引,但是某些查询还是很慢,根本就没有使用到索引!一般来说,可能是某些字段没有创建索引,或者是组合索引中字段的顺序与查询语句中字段的顺序不符. 看下面的例子:假设有一 ...
转：RTMPdump使用相关
在FFMPEG中使用libRTMP的经验 FFMPEG在编译的时候可以选择支持RTMP的类库libRTMP.这样ffmpeg就可以支持rtmp://, rtmpt://, rtmpe://, rtmp ...
framework4.0注册到IIS
C:\WINDOWS\Microsoft.NET\Framework\v4.0.30319\aspnet_regiis.exe -ir -enable C:\WINDOWS\Microsoft.NET ...
Lotus中关于字符串处理的函数汇总
我们在使用LotusScript编写代理程序的时候,很多时候我们会遇到需要处理字符串的情况,本文就对平时遇到的相关函数做一个汇总. Sub Initialize Dim testStr As Str ...
C++实现单例模式
昨天面试的时候,面试官让我用C++或Java实现一个单例模式. 因为设计模式是在12年的时候学习过这门课,而且当时觉得这门课很有意思,所以就把课本读了几遍,所以印象比较深刻,但是因为实际编程中很少注意 ...
常用jquery插件资料
fullPage.js 全屏滚动https://github.com/alvarotrigo/fullPage.js Lava Lamp 导航条熔岩灯http://lavalamp.magicmedi ...
Android开发：第四日番外——Assets文件夹和RAW文件夹区别
话说上回说到SQLite数据库,其中涉及到把已经设计好的数据库打包到APK中,提到可以放置在Assert文件夹或者RAW文件夹中,那么两者到底有什么区别呢?让我们来探究一下. 一.res/raw和as ...
【Cocos2d-Js基础教学（5）资源打包工具的使用及资源的异步加载处理】
TexturePacker是纹理资源打包工具,支持Cocos2dx的游戏资源打包. 如果用过的同学可以直接看下面的资源的异步加载处理首先为什么用TexturePacker? 1,节省图片资源实际大小 ...

爬虫技术 -- 进阶学习（七）简单爬虫抓取示例（附c#代码）

爬虫技术 -- 进阶学习（七）简单爬虫抓取示例（附c#代码）的更多相关文章

随机推荐

热门专题