[开源 .NET 跨平台数据采集爬虫框架: DotnetSpider] [二] 基本使用

[DotnetSpider 系列目录]

使用环境

Visual Studio 2017
.NET 4.5 or later or .NET Core

概述

在上一篇也讲到过，实现一个完整的爬虫需要4大模块：下载器（已有实现），URL调度（已有实现），数据抽取（需要自己实现），数据存储（需要自己实现），因此，只需要实现数据抽取、数据存储这两个模块就可以完成一个爬虫了。

新建一个Console 项目

右键项目的Manage NuGet Packages(管理NuGet包)

搜索DotnetSpider2, 从结果列表中选中DotnetSpider2.Core并安装到控制台项目中

定义数据对象

public class YoukuVideo

{

    public string Name { get; set; }

}

定义数据抽取（实现 IPageProcessor 接口）

        public class YoukuPageProcessor : BasePageProcessor

        {

            protected override void Handle(Page page)

            {

                // 利用 Selectable 查询并构造自己想要的数据对象

                var totalVideoElements = page.Selectable.SelectList(Selectors.XPath("//div[@class='yk-pack pack-film']")).Nodes();

                List<YoukuVideo> results = new List<YoukuVideo>();

                foreach (var videoElement in totalVideoElements)

                {

                    var video = new YoukuVideo();

                    video.Name = videoElement.Select(Selectors.XPath(".//img[@class='quic']/@alt")).GetValue();

                    results.Add(video);

                }

                // Save data object by key. 以自定义KEY存入page对象中供Pipeline调用

                page.AddResultItem("VideoResult", results);

            }

        }

需要注意的是

Page 对象中Selectable属性是由下载的HTML构造的选择器容器，调用Seletable的接口就可以进行Xpath，Css， JsonPath，Regex的查询
Selectable的GetValue传入true时会把结果去HTML标签化
把组装好的对象，如上面的 YoukuVideo List, 保存到page的ResultItem中，并指定一个唯一的Key

定义数据管道（继承BasePipeline这个抽象类）

数据管道可以通过在PageProcessor中指定的唯一Key，取出需要处理的数据存入想要的数据库或文件中

    public class YoukuPipeline : BasePipeline

    {

        private static long count = ;

        public override void Process(ResultItems resultItems)

        {

            StringBuilder builder = new StringBuilder();

            foreach (YoukuVideo entry in resultItems.Results["VideoResult"])

            {

                count++;

                builder.Append($" [YoukuVideo {count}] {entry.Name}");

            }

            Console.WriteLine(builder);

            // Other actions like save data to DB. 可以自由实现插入数据库或保存到文件

        }

    }

初始化起始链接并运行

通过AddStartUrl可以添加爬虫的起始链接后，调用Run方法运行爬虫

            // Config encoding, header, cookie, proxy etc... 定义采集的 Site 对象, 设置 Header、Cookie、代理等

            var site = new Site { EncodingName = "UTF-8", RemoveOutboundLinks = true };

            for (int i = ; i < ; ++i)

            {

                // Add start/feed urls. 添加初始采集链接

                site.AddStartUrl($"http://list.youku.com/category/show/c_96_s_1_d_1_p_{i}.html");

            }

            Spider spider = Spider.Create(site,

                // use memoery queue scheduler. 使用内存调度

                new QueueDuplicateRemovedScheduler(),

                // use custmize processor for youku 为优酷自定义的 Processor

                new YoukuPageProcessor())

                // use custmize pipeline for youku 为优酷自定义的 Pipeline

                .AddPipeline(new YoukuPipeline());

            spider.Downloader = new HttpClientDownloader();

            spider.ThreadNum = ;

            spider.EmptySleepTime = ;

            // Start crawler 启动爬虫

            spider.Run();

运行结果

设置目标页抽取

以上只是采集了初始的一个链接，如何达到翻页(遍历)效果继续采集直的最后一页呢？只需要在PageProccessor中解析出符合规则的目标页，并加入到Page对象的TargetRequests这个List中即可。我们做如下改动：

        public class YoukuPageProcessor : BasePageProcessor

        {

            protected override void Handle(Page page)

            {

                // 利用 Selectable 查询并构造自己想要的数据对象

                var totalVideoElements = page.Selectable.SelectList(Selectors.XPath("//div[@class='yk-pack pack-film']")).Nodes();

                List<YoukuVideo> results = new List<YoukuVideo>();

                foreach (var videoElement in totalVideoElements)

                {

                    var video = new YoukuVideo();

                    video.Name = videoElement.Select(Selectors.XPath(".//img[@class='quic']/@alt")).GetValue();

                    results.Add(video);

                }

                // Save data object by key. 以自定义KEY存入page对象中供Pipeline调用

                page.AddResultItem("VideoResult", results);

                // Add target requests to scheduler. 解析需要采集的URL

                foreach (var url in page.Selectable.SelectList(Selectors.XPath("//ul[@class='yk-pages']")).Links().Nodes())

                {

                    page.AddTargetRequest(new Request(url.GetValue(), null));

                }

            }

        }

重新运行爬虫后，可以看到已经实现的翻页

代码地址

https://github.com/zlzforever/DotnetSpider 望各位大佬加星

参与开发或有疑问

博文写得比较早, 框架修改有时会来不及更新博文中的代码, 请查看DotnetSpider.Sample项目中的样例爬虫

QQ群: 477731655

邮箱: zlzforever@163.com

[开源 .NET 跨平台数据采集爬虫框架: DotnetSpider] [二] 基本使用的更多相关文章

[开源 .NET 跨平台数据采集爬虫框架: DotnetSpider] [一] 初衷与架构设计
[DotnetSpider 系列目录] 一.初衷与架构设计二.基本使用三.配置式爬虫四.JSON数据解析与配置系统为什么要造轮子同学们可以去各大招聘网站查看一下爬虫工程师的要求,大多是招JA ...
[开源 .NET 跨平台数据采集爬虫框架: DotnetSpider] [三] 配置式爬虫
[DotnetSpider 系列目录] 一.初衷与架构设计二.基本使用三.配置式爬虫四.JSON数据解析与配置系统上一篇介绍的基本的使用方式,虽然自由度很高,但是编写的代码相对还是挺多.于是框 ...
[开源 .NET 跨平台数据采集爬虫框架: DotnetSpider] [四] JSON数据解析
[DotnetSpider 系列目录] 一.初衷与架构设计二.基本使用三.配置式爬虫四.JSON数据解析与配置系统场景模拟假设由于漏存JD SKU对应的店铺信息.这时我们需要重新完全采集所有 ...
[开源 .NET 跨平台 Crawler 数据采集爬虫框架: DotnetSpider] [二] 基本使用
[DotnetSpider 系列目录] 一.初衷与架构设计二.基本使用三.配置式爬虫四.JSON数据解析与配置系统五.如何做全站采集使用环境 Visual Studio 2017 .NET ...
[开源 .NET 跨平台 Crawler 数据采集爬虫框架: DotnetSpider] [一] 初衷与架构设计
[DotnetSpider 系列目录] 一.初衷与架构设计二.基本使用三.配置式爬虫四.JSON数据解析与配置系统五.如何做全站采集为什么要造轮子同学们可以去各大招聘网站查看一下爬虫工程师 ...
[开源 .NET 跨平台 Crawler 数据采集爬虫框架: DotnetSpider] [五] 如何做全站采集?
[DotnetSpider 系列目录] 一.初衷与架构设计二.基本使用三.配置式爬虫四.JSON数据解析与配置系统五.如何做全站采集如何做全站采集? 很多同学加群都在问, 如何使用Dotne ...
[开源 .NET 跨平台 Crawler 数据采集爬虫框架: DotnetSpider] [四] JSON数据解析
[DotnetSpider 系列目录] 一.初衷与架构设计二.基本使用三.配置式爬虫四.JSON数据解析与配置系统五.如何做全站采集场景模拟接上一篇, JD SKU对应的店铺信息是异步加载 ...
[开源 .NET 跨平台 Crawler 数据采集爬虫框架: DotnetSpider] [三] 配置式爬虫
[DotnetSpider 系列目录] 一.初衷与架构设计二.基本使用三.配置式爬虫四.JSON数据解析与配置系统五.如何做全站采集上一篇介绍的基本的使用方式,自由度很高,但是编写的代码相对 ...
[开源 .NET 跨平台 Crawler 数据采集爬虫框架: DotnetSpider] 学习
http://www.cnblogs.com/jjg0519/p/6707513.html

随机推荐

剑指Offer面试题：31.两个链表的第一个公共节点
一.题目:两个链表的第一个公共节点题目:输入两个链表,找出它们的第一个公共结点. 链表结点定义如下,这里使用C#语言描述: public class Node { public int key; p ...
【转】我的技术学习方法 — Anytao
原文作者:anytao—王涛他的著作:<你必须知道的.Net> 关于这个问题,也有不少刚刚入行的朋友向我问起.我想可能一千个人就有一千个答案,我不能保证自己的想法适合于所有的人,但是这确 ...
企业IT管理员IE11升级指南【2】—— Internet Explorer 11 对Adobe Flash的支持
企业IT管理员IE11升级指南系列: [1]—— Internet Explorer 11增强保护模式 (EPM) 介绍 [2]—— Internet Explorer 11 对Adobe Flas ...
使用vbs脚本进行批量编码转换
使用vbs脚本进行批量编码转换最近需要使用SourceInsight查看分析在Linux系统下开发的项目代码,我们知道Linux系统中文本文件默认编码格式是UTF-8,而Windows中文系统中的默 ...
ASP.NET MVC 路由(四)
ASP.NET MVC路由(四) 前言在前面的篇幅中我们讲解路由系统在MVC中的运行过程以及粗略的原理,想必看过前面篇幅的朋友应该对路由有个概念性的了解了,本篇来讲解区域,在读完本篇后不会肯定的让你 ...
.NET陷阱之六：从枚举值持久化带来大量空间消耗谈起
好长时间没有写博文了,今天继续. 这次跟大家分享的内容起因于对一个枚举值列表的序列化,下面简化后的代码即能重现.为了明确起见,我显式指定了枚举的基础类型. // 定义一个枚举类型. public en ...
[ASP.NET MVC 小牛之路]03 - Razor语法
本人博客已转移至:http://www.exblr.com/liam Razor是MVC3中才有的新的视图引擎.我们知道,在ASP.NET中,ASPX的视图引擎依靠<%和%>来调用C#指 ...
Oozie调度报错——ORA-00918：未明确定义列
Oozie在执行sqoop的时候报错,同样的SQL在sqoop中可用,在oozie中不可用: Caused by: java.sql.SQLSyntaxErrorException: ORA-0091 ...
ios crash的原因与抓取crash日志的方法
首先我们经常会闪退的异常有哪些呢?crash的产生来源于两种问题:违反iOS策略被干掉,以及自身的代码bug. 1.IOS策略 1.1 低内存闪退前面提到大多数crash日志都包含着执行线程的栈调用 ...
jsp登入oracle
<body> <% Class.forName("oracle.jdbc.driver.OracleDriver"); Connection conn=null; ...

[开源 .NET 跨平台 数据采集 爬虫框架: DotnetSpider] [二] 基本使用