爬虫技术（四）-- 简单爬虫抓取示例（附c#代码）

这是我的第一个爬虫代码。。。算是一份测试版的代码。大牛大神别喷。。。

通过给定一个初始的地址startPiont然后对网页进行捕捉，然后通过正则表达式对网址进行匹配。

List<string> todo ：进行抓取的网址的集合

List<string> visited ：已经访问过的网址的集合

下面实现的是，给定一个初始地址，然后进行爬虫，输出正在访问的网址和已经访问的网页的个数。

需要注意的是，下面代码实现的链接匹配页面的内容如图一、图二所示：

图一：

图二：

简单代码示范如下：（测试版）

using System;

using System.Collections.Generic;

using System.ComponentModel;

using System.Data;

using System.Drawing;

using System.Linq;

using System.Text;

using System.Windows.Forms;

using System.Web.Security;

using System.IO;

using System.Net;

using System.Text.RegularExpressions;

using System.Web;

namespace Demo1

{

    public partial class Form1 : Form

    {

        public Form1()

        {

            InitializeComponent();

         }

        private void button1_Click(object sender, EventArgs e)

        {

            Test1 a = new Test1();

            a.getCurrentURL();

        }

        public class Test1

        {

            List<string> todo = new List<string>();

            List<string> visited = new List<string>();

            string startPoint = "http://www.cnblogs.com/lmei/";

            
            public void getCurrentURL()

            {

                RequestSite(startPoint);

                while (todo.Count > 0) 
                {

                    string currentURL = todo[0];

                    RequestSite(currentURL);

                    if (visited.Contains(currentURL))  //注释1

                    {

                        Console.WriteLine("已经访问过了" + currentURL);

                        todo.Remove((currentURL));

                    }

                    else

                    {

                        Console.WriteLine("现在正在访问：===>   " + currentURL);

                        visited.Add(currentURL);

                        Console.WriteLine("目前已经访问了：===>   " + visited.Count + "个网页" );

                        todo.Remove((currentURL));

                    }

                }

            }

            public void RequestSite(string url)

            {

                WebRequest req = WebRequest.Create(url);

                HttpWebResponse res;

                try{

                      res = (HttpWebResponse)(req.GetResponse());

                }

                catch (WebException ex) { res = (HttpWebResponse)ex.Response; }

                Stream st = res.GetResponseStream();

                StreamReader rdr = new StreamReader(st);

                string s = rdr.ReadToEnd();

                todo.AddRange(GetLink(s));

            }

            List<string> GetLink(string htmlPage)

            {

                Regex regx =

                    new Regex("http://www\\.cnblogs\\.com\\/lmei\\/p\\/[0-9a-zA-Z]+\\.html*" ,RegexOptions.IgnoreCase);

                MatchCollection matches = regx.Matches(htmlPage);

                List<string> results = new List<string>();

                foreach (Match match in matches)

                {

                    if (!visited.Contains(match.Value)) //注释2

                    {

                        results.Add(match.Value);

                    }

                }

                return results;

            }

        }

    }

}

注释1 ：是将已经访问过的网址排除。

注释2 ：是将已经访问过的网址排除，但是可能由于同个网页中包含的两个（或两个以上）相同的链接，而且都没被访问过的，这样使得todo队列中会有相同的网址，所以需要注释1那部分进行再次过滤排除。其实也可以将注释2那部分删去，直接让注释1过滤就行。

接下来会进一步补充爬虫抓取的内容。。。

爬虫技术（四）-- 简单爬虫抓取示例（附c#代码）的更多相关文章

【Python3 爬虫】01_简单页面抓取
运行平台:Winodows 10 Python版本:Python 3.4.2 IDE:Sublime text3 网络爬虫网络爬虫,也叫网络蜘蛛(Web Spider),如果把互联网比喻成一个蜘蛛网 ...
python爬虫构建代理ip池抓取数据库的示例代码
爬虫的小伙伴,肯定经常遇到ip被封的情况,而现在网络上的代理ip免费的已经很难找了,那么现在就用python的requests库从爬取代理ip,创建一个ip代理池,以备使用. 本代码包括ip的爬取,检 ...
iOS—网络实用技术OC篇&网络爬虫－使用java语言抓取网络数据
网络爬虫-使用java语言抓取网络数据前提:熟悉java语法(能看懂就行) 准备阶段:从网页中获取html代码实战阶段:将对应的html代码使用java语言解析出来,最后保存到plist文件上一 ...
iOS开发——网络实用技术OC篇&网络爬虫－使用java语言抓取网络数据
网络爬虫-使用java语言抓取网络数据前提:熟悉java语法(能看懂就行) 准备阶段:从网页中获取html代码实战阶段:将对应的html代码使用java语言解析出来,最后保存到plist文件上一 ...
爬虫学习一系列：urllib2抓取网页内容
爬虫学习一系列:urllib2抓取网页内容所谓网页抓取,就是把URL地址中指定的网络资源从网络中读取出来,保存到本地.我们平时在浏览器中通过网址浏览网页,只不过我们看到的是解析过的页面效果,而通过程 ...
python爬虫之分析Ajax请求抓取抓取今日头条街拍美图（七）
python爬虫之分析Ajax请求抓取抓取今日头条街拍美图一.分析网站 1.进入浏览器,搜索今日头条,在搜索栏搜索街拍,然后选择图集这一栏. 2.按F12打开开发者工具,刷新网页,这时网页回弹到综合 ...
Python网络爬虫（Get、Post抓取方式）
简单的抓取网页 import urllib.request url="http://google.cn/" response=urllib.request.urlopen(url) ...
arpspoof+driftnet+ ARP欺骗简单图片抓取
arpspoof+driftnet+ ARP欺骗简单图片抓取 driftnet是一款简单而使用的图片捕获工具,可以很方便的在网络数据包中抓取图片.该工具可以实时和离线捕获指定数据包中是图片环境受害 ...
[python应用]python简单图片抓取
前言 emmmm python简单图片抓取 1 import requests 2 import threading 3 import queue 4 from subprocess import P ...
抓取oschina上面的代码分享python块区下的标题和对应URL
# -*- coding=utf-8 -*- import requests,re from lxml import etree import sys reload(sys) sys.setdefau ...

随机推荐

父页面调用iframe方法
父页面调用Iframe的方法 document.getElementById("tabIf0").contentWindow.Search(); Jquery 方式: ...
DSP5509的时钟发生器(翻译总结自TI官方文档)
一.C5509时钟发生器的两个功能 1.将从CLKIN引脚输入的时钟信号变换为适当频率的CPU时钟,提供给CPU.外设和其他模块使用: 2.将CPU时钟通过可编程分频器输出到CLKOUT引脚. 时钟发 ...
PHP命令行模式基本介绍
首先要保证php在cli模式下可用,php –v会返回PHP的版本号. [gaojian3@log001 ~]$ php -v PHP (cli) (built: Aug ::) Copyrigh ...
sql注入分类
Sql注入根据数据提取通道的类型,从服务器接收到的响应等可以分为不同的类型. 基于从服务器接收到的响应 ▲基于错误的SQL注入 ▲联合查询的类型 ▲堆查询注射 ▲SQL盲注 •基于布尔SQL盲注 •基 ...
解决Ubuntu下内存不足---作为Slave的虚拟机
1)在虚拟机上安装了Ubuntu桌面版作为DataNode,由于物理机内存的限制只是分了1G的内存给虚拟机,使用bin/start-all.sh启动了hadoop之后,Slave的资源使用情况如下图所 ...
CodeForces 1B Spreadsheets (字符串处理，注意细节，大胆尝试)
题目注意模后余数为0时,要把除以26后的新数据减1,为什么这样,要靠大胆尝试.我在对小比赛中坑了一下午啊,直到比赛结束也没写出这道题....要死了.. #include<stdio.h> ...
强大的grep命令
1.作用 Linux系统中grep命令是一种强大的文本搜索工具,它能使用正则表达式搜索文本,并把匹配的行打印出来.grep全称是Global Regular Expression Print,表示全 ...
iframe父子兄弟之间调用传值(contentWindow && parent)
iframe的调用包括以下几个方面:(调用包含html dom,js全局变量,js方法) 主页面调用iframe: iframe页面调用主页面: 主页面的包含的iframe之间相互调用: 主要知识点 ...
lintcode：打劫房屋II
题目打劫房屋II 在上次打劫完一条街道之后,窃贼又发现了一个新的可以打劫的地方,但这次所有的房子围成了一个圈,这就意味着第一间房子和最后一间房子是挨着的.每个房子都存放着特定金额的钱.你面临的唯一约 ...
iOS 应用内付费（IAP）开发步骤
折腾好几天,原来是税务信息没有填写,哎... 国内就是好啊,没有这些麻烦的事情... :) 等24小时,等税务的审核结果... 有结论了才能测试内购.... 如果税务信息没有填写完毕,p ...

爬虫技术（四）-- 简单爬虫抓取示例（附c#代码）

爬虫技术（四）-- 简单爬虫抓取示例（附c#代码）的更多相关文章

随机推荐

热门专题