[DotnetSpider 系列目录]

使用环境

  • Visual Studio 2017

  • .NET 4.5 or later or .NET Core

概述

在上一篇也讲到过,实现一个完整的爬虫需要4大模块:下载器(已有实现),URL调度(已有实现),数据抽取(需要自己实现),数据存储(需要自己实现),因此,只需要实现数据抽取、数据存储这两个模块就可以完成一个爬虫了。

新建一个Console 项目

  • 右键项目的Manage NuGet Packages(管理NuGet包)

    

  • 搜索DotnetSpider2, 从结果列表中选中DotnetSpider2.Core并安装到控制台项目中

    

定义数据对象

  1. public class YoukuVideo
  2. {
  3. public string Name { get; set; }
  4. }

定义数据抽取(实现 IPageProcessor 接口)

  1. public class YoukuPageProcessor : BasePageProcessor
  2. {
  3. protected override void Handle(Page page)
  4. {
  5. // 利用 Selectable 查询并构造自己想要的数据对象
  6. var totalVideoElements = page.Selectable.SelectList(Selectors.XPath("//div[@class='yk-pack pack-film']")).Nodes();
  7. List<YoukuVideo> results = new List<YoukuVideo>();
  8. foreach (var videoElement in totalVideoElements)
  9. {
  10. var video = new YoukuVideo();
  11. video.Name = videoElement.Select(Selectors.XPath(".//img[@class='quic']/@alt")).GetValue();
  12. results.Add(video);
  13. }
  14.  
  15. // Save data object by key. 以自定义KEY存入page对象中供Pipeline调用
  16. page.AddResultItem("VideoResult", results);
  17. }
  18. }

需要注意的是

  1. Page 对象中Selectable属性是由下载的HTML构造的选择器容器,调用Seletable的接口就可以进行Xpath,Css, JsonPath,Regex的查询
  2. Selectable的GetValue传入true时会把结果去HTML标签化
  3. 把组装好的对象,如上面的 YoukuVideo List, 保存到page的ResultItem中,并指定一个唯一的Key

定义数据管道(继承BasePipeline这个抽象类)

数据管道可以通过在PageProcessor中指定的唯一Key,取出需要处理的数据存入想要的数据库或文件中

  1. public class YoukuPipeline : BasePipeline
  2. {
  3. private static long count = ;
  4.  
  5. public override void Process(ResultItems resultItems)
  6. {
  7. StringBuilder builder = new StringBuilder();
  8. foreach (YoukuVideo entry in resultItems.Results["VideoResult"])
  9. {
  10. count++;
  11. builder.Append($" [YoukuVideo {count}] {entry.Name}");
  12. }
  13. Console.WriteLine(builder);
  14.  
  15. // Other actions like save data to DB. 可以自由实现插入数据库或保存到文件
  16. }
  17. }

初始化起始链接并运行

通过AddStartUrl可以添加爬虫的起始链接后,调用Run方法运行爬虫

  1. // Config encoding, header, cookie, proxy etc... 定义采集的 Site 对象, 设置 Header、Cookie、代理等
  2. var site = new Site { EncodingName = "UTF-8", RemoveOutboundLinks = true };
  3. for (int i = ; i < ; ++i)
  4. {
  5. // Add start/feed urls. 添加初始采集链接
  6. site.AddStartUrl($"http://list.youku.com/category/show/c_96_s_1_d_1_p_{i}.html");
  7. }
  8. Spider spider = Spider.Create(site,
  9. // use memoery queue scheduler. 使用内存调度
  10. new QueueDuplicateRemovedScheduler(),
  11. // use custmize processor for youku 为优酷自定义的 Processor
  12. new YoukuPageProcessor())
  13. // use custmize pipeline for youku 为优酷自定义的 Pipeline
  14. .AddPipeline(new YoukuPipeline());
  15. spider.Downloader = new HttpClientDownloader();
  16. spider.ThreadNum = ;
  17. spider.EmptySleepTime = ;
  18.  
  19. // Start crawler 启动爬虫
  20. spider.Run(); 

运行结果

设置目标页抽取

以上只是采集了初始的一个链接,如何达到翻页(遍历)效果继续采集直的最后一页呢?只需要在PageProccessor中解析出符合规则的目标页,并加入到Page对象的TargetRequests这个List中即可。我们做如下改动:

  1. public class YoukuPageProcessor : BasePageProcessor
  2. {
  3. protected override void Handle(Page page)
  4. {
  5. // 利用 Selectable 查询并构造自己想要的数据对象
  6. var totalVideoElements = page.Selectable.SelectList(Selectors.XPath("//div[@class='yk-pack pack-film']")).Nodes();
  7. List<YoukuVideo> results = new List<YoukuVideo>();
  8. foreach (var videoElement in totalVideoElements)
  9. {
  10. var video = new YoukuVideo();
  11. video.Name = videoElement.Select(Selectors.XPath(".//img[@class='quic']/@alt")).GetValue();
  12. results.Add(video);
  13. }
  14.  
  15. // Save data object by key. 以自定义KEY存入page对象中供Pipeline调用
  16. page.AddResultItem("VideoResult", results);
  17.  
  18. // Add target requests to scheduler. 解析需要采集的URL
  19. foreach (var url in page.Selectable.SelectList(Selectors.XPath("//ul[@class='yk-pages']")).Links().Nodes())
  20. {
  21. page.AddTargetRequest(new Request(url.GetValue(), null));
  22. }
  23. }
  24. }

重新运行爬虫后,可以看到已经实现的翻页

代码地址

https://github.com/zlzforever/DotnetSpider 望各位大佬加星 

参与开发或有疑问

博文写得比较早, 框架修改有时会来不及更新博文中的代码, 请查看DotnetSpider.Sample项目中的样例爬虫

QQ群: 477731655

邮箱: zlzforever@163.com

[开源 .NET 跨平台 数据采集 爬虫框架: DotnetSpider] [二] 基本使用的更多相关文章

  1. [开源 .NET 跨平台 数据采集 爬虫框架: DotnetSpider] [一] 初衷与架构设计

    [DotnetSpider 系列目录] 一.初衷与架构设计 二.基本使用 三.配置式爬虫 四.JSON数据解析与配置系统 为什么要造轮子 同学们可以去各大招聘网站查看一下爬虫工程师的要求,大多是招JA ...

  2. [开源 .NET 跨平台 数据采集 爬虫框架: DotnetSpider] [三] 配置式爬虫

    [DotnetSpider 系列目录] 一.初衷与架构设计 二.基本使用 三.配置式爬虫 四.JSON数据解析与配置系统 上一篇介绍的基本的使用方式,虽然自由度很高,但是编写的代码相对还是挺多.于是框 ...

  3. [开源 .NET 跨平台 数据采集 爬虫框架: DotnetSpider] [四] JSON数据解析

    [DotnetSpider 系列目录] 一.初衷与架构设计 二.基本使用 三.配置式爬虫 四.JSON数据解析与配置系统 场景模拟 假设由于漏存JD SKU对应的店铺信息.这时我们需要重新完全采集所有 ...

  4. [开源 .NET 跨平台 Crawler 数据采集 爬虫框架: DotnetSpider] [二] 基本使用

    [DotnetSpider 系列目录] 一.初衷与架构设计 二.基本使用 三.配置式爬虫 四.JSON数据解析与配置系统 五.如何做全站采集 使用环境 Visual Studio 2017 .NET ...

  5. [开源 .NET 跨平台 Crawler 数据采集 爬虫框架: DotnetSpider] [一] 初衷与架构设计

    [DotnetSpider 系列目录] 一.初衷与架构设计 二.基本使用 三.配置式爬虫 四.JSON数据解析与配置系统 五.如何做全站采集 为什么要造轮子 同学们可以去各大招聘网站查看一下爬虫工程师 ...

  6. [开源 .NET 跨平台 Crawler 数据采集 爬虫框架: DotnetSpider] [五] 如何做全站采集?

    [DotnetSpider 系列目录] 一.初衷与架构设计 二.基本使用 三.配置式爬虫 四.JSON数据解析与配置系统 五.如何做全站采集 如何做全站采集? 很多同学加群都在问, 如何使用Dotne ...

  7. [开源 .NET 跨平台 Crawler 数据采集 爬虫框架: DotnetSpider] [四] JSON数据解析

    [DotnetSpider 系列目录] 一.初衷与架构设计 二.基本使用 三.配置式爬虫 四.JSON数据解析与配置系统 五.如何做全站采集 场景模拟 接上一篇, JD SKU对应的店铺信息是异步加载 ...

  8. [开源 .NET 跨平台 Crawler 数据采集 爬虫框架: DotnetSpider] [三] 配置式爬虫

    [DotnetSpider 系列目录] 一.初衷与架构设计 二.基本使用 三.配置式爬虫 四.JSON数据解析与配置系统 五.如何做全站采集 上一篇介绍的基本的使用方式,自由度很高,但是编写的代码相对 ...

  9. [开源 .NET 跨平台 Crawler 数据采集 爬虫框架: DotnetSpider] 学习

    http://www.cnblogs.com/jjg0519/p/6707513.html

随机推荐

  1. serialVersionUID, ObjectInputStream与ObjectOutputStream类,Serializable接口,serialVersionUID的作用和用法

    ObjectInputStream与ObjectOutputStream类所读写的对象必须实现Serializable接口,对象中的transient和static类型成员变量不会被读取和写入 Ser ...

  2. SQL Server的镜像是基于物理块变化的复制 镜像Failover之后数据的预热问题

    SQL Server的镜像是基于物理块变化的复制 镜像Failover之后数据的预热问题 基于物理块变化的复制,没有并行也是很快的. 逻辑复制的日志是按事务结束的时间排序的,而物理复制是与事务无关的, ...

  3. 配置apache和nginx的tomcat负载均衡

    概述 本篇文章主要介绍apache和nginx的相关配置,tomcat的相关安装配置我在前面有写过一篇,详细介绍通过两种配置方法配置nginx. tomcat配置参考:http://www.cnblo ...

  4. SQL Server 深入解析索引存储(中)

    标签:SQL SERVER/MSSQL SERVER/数据库/DBA/索引体系结构/堆 概述 本篇文章是关于堆的存储结构.堆是不含聚集索引的表(所以只有非聚集索引的表也是堆).堆的 sys.parti ...

  5. TODO:小程序的春天你想做什么

    TODO:小程序的春天你想做什么 微信小程序是一种全新的连接用户与服务的方式,它可以在微信内被便捷地获取和传播,同时具有出色的使用体验. 初步了解小程序的特点 导航明确,来去自如 统一稳定, 视觉规范 ...

  6. 《Entity Framework 6 Recipes》中文翻译系列 (13) -----第三章 查询之使用Entity SQL

    翻译的初衷以及为什么选择<Entity Framework 6 Recipes>来学习,请看本系列开篇 3-4使用实体SQL查询模型 问题 你想通过执行Entity SQL语句来查询你的实 ...

  7. web安全测试资料

    最近因为工作需要,整理了安全测试工具AppScan的一个教程.目录如下: 网上对于appscan的资料挺多,但是也很乱很杂.不利于系统的学习,这也是我为什么整理这样一份指导手册. 在这份手册里,主要包 ...

  8. 面向对象设计之SRP(单一职责)原则

    SRP设计原则面向对象类设计的第一个原则,最优先考虑的因素 一个类应该有且仅有一个职责.所谓一个类的职责是指引起该类变化的原因,如果一个类具有一个以上的职责,那么就会有多个不同的原因 引起该类变化,其 ...

  9. Sql Server系列:存储过程

    1 存储过程简介 存储过程是使用T-SQL代码编写的代码段.在存储过程中,可以声明变量.执行条件判断语句等其他编程功能.在MS SQL Server 2012中存储过程主要分三类:系统存储过程.自定义 ...

  10. sql语句的优化分析

    开门见山,问题所在 sql语句性能达不到你的要求,执行效率让你忍无可忍,一般会时下面几种情况. 网速不给力,不稳定. 服务器内存不够,或者SQL 被分配的内存不够. sql语句设计不合理 没有相应的索 ...