[开源 .NET 跨平台 数据采集 爬虫框架: DotnetSpider] [一] 初衷与架构设计

一 ,为什么要造轮子

有兴趣的同学可以去各大招聘网站看一下爬虫工程师的要求,大多是JAVA,PYTHON甚至于还有NODEJS,C++,再或者在开源中国查询C#的爬虫,仅有几个非常简单或是几年没有更新的项目。从我看的一些文章来说,单纯性能上.NET对比JAVA,PYTHON并没有处于弱势,另根据我多年的开发经验大多爬虫性能瓶颈在并发下载(网速)、IP池,因此我认为用C#写一个爬虫框架绝对是可行的,那么为什么我大.NET没有一个强大的爬虫框架呢?说真的我不知道,可能爬虫框架核心上比较简单而没有被大牛看上,也可能.NET的开发人员没有别的语言的开发人员勤奋,或是.NET的开源氛围没有别的语言高。随着.NET开源消息的公布,我觉得是时候开发一个跨平台,跨语言的爬虫框架了。我不喜欢复杂的东西,总是觉得复杂的东西容易出问题,可能跟我个人能力有限,驾驭不了有关。所以设计DotnetSpider的时候是参考JAVA下一个轻量级爬虫框架webmagic,但是肯定有我自己的理解和改进在内的。此文是系列介绍第一篇,后面陆续会介绍详细用法及程序改动

另:个人代码水平有限,如果写得不好请大家指正海涵

二 ,框架设计

其实爬虫的设计我觉得还是挺成熟的,大部分都会拿出下图来说事,由于我是参考的webmagic,所以也少不得得贴上来给大家一看(图片是直接从webmagic上拿的)

  • Scheduler:负责URL的调度,可以实现如Queue, PriorityScheduler, RedisScheduler(可用于分布式)等等
  • Downloader: 负责下载HTML,可以实现如HttpDownloader, 浏览器的Downloader(WebDriver), FiddlerDownloader,本地文件Downloader等等
  • PageProcesser: 负责HTML解析及新的符合规则的URL解析,从上图可以看到传入Processer的是Page对象,里面包含了下载好的完整HTML或者JSON数据
  • Pipeline: 负责数据的存储, 可以实现如MySql, MySqlFile,MSSQL,MongoDb等等

三 ,与别的爬虫的差异

  1. 使用JSON定义爬虫,所以可以最终实现跨语言(不同语言只要写一个JSON转换的provider就好)
  2. 由于使用JSON做解析,所以可以实现类中属性是别的类的情况(仅限MongoDB, 关系型数据库不好存这种数据)\
  3. 自动建表
  4. 有.NET CORE版本,因此可以跨平台(已经在LINUX下运行大量任务了)
  5. 有感于IP代理的不稳定性,因此代理模块没有细致测试使用,而是实现了另一种换IP手段(ADSL拨号)
  6. 加入基本的数据验证模块

四 ,最基本使用方法

最基本的使用方法是不需要引用Extension, 引用Common, Core, JLog就好,然后需要你自己实现IPipeline和Processer

  1. public static void Main()
  2. {
  3. HttpClientDownloader downloader = new HttpClientDownloader();
  4.  
  5. Core.Spider spider = Core.Spider.Create(new MyPageProcessor(), new QueueDuplicateRemovedScheduler()).AddPipeline(new MyPipeline()).SetThreadNum(1);
  6. var site = new Site() { EncodingName = "UTF-8" };
  7. for (int i = 1; i < 5; ++i)
  8. {
  9. site.AddStartUrl("http://www.youku.com/v_olist/c_97_g__a__sg__mt__lg__q__s_1_r_0_u_0_pt_0_av_0_ag_0_sg__pr__h__d_1_p_1.html");
  10. }
  11. spider.Site = site;
  12. spider.Start();
  13. }
  14.  
  15. private class MyPipeline : IPipeline
  16. {
  17. public void Process(ResultItems resultItems, ISpider spider)
  18. {
  19. foreach (YoukuVideo entry in resultItems.Results["VideoResult"])
  20. {
  21. Console.WriteLine($"{entry.Name}:{entry.Click}");
  22. }
  23.  
  24. //May be you want to save to database
  25. //
  26. }
  27.  
  28. public void Dispose()
  29. {
  30. }
  31. }
  32.  
  33. private class MyPageProcessor : IPageProcessor
  34. {
  35. public void Process(Page page)
  36. {
  37. var totalVideoElements = page.Selectable.SelectList(Selectors.XPath("//div[@class='yk-col3']")).Nodes();
  38. List<YoukuVideo> results = new List<YoukuVideo>();
  39. foreach (var videoElement in totalVideoElements)
  40. {
  41. var video = new YoukuVideo();
  42. video.Name = videoElement.Select(Selectors.XPath("/div[4]/div[1]/a")).GetValue();
  43. video.Click = int.Parse(videoElement.Select(Selectors.Css("p-num")).GetValue().ToString());
  44. results.Add(video);
  45. }
  46. page.AddResultItem("VideoResult", results);
  47. }
  48.  
  49. public Site Site => new Site { SleepTime = 0 };
  50. }
  51.  
  52. public class YoukuVideo
  53. {
  54. public string Name { get; set; }
  55. public string Click { get; set; }
  56. }

五 ,高级使用方法

  1. 定义一个实体类,并在类上加合适的Attribute以便知道你要如何解析数据
  2. 定义一个SpiderContextBuilder类,在里面配置爬虫名字,线程数,Scheduler,downloader等等
  3. 在main中实类化你的爬虫类,调用run方法
  1. public class JdSkuSpider : ISpiderContext
  2. {
  3. public SpiderContextBuilder GetBuilder()
  4. {
  5. Log.TaskId = "JD SKU Weekly";
  6. SpiderContext context = new SpiderContext
  7. {
  8. SpiderName = "JD SKU " + DateTimeUtils.MONDAY_RUN_ID,
  9. CachedSize = 1,
  10. ThreadNum = 8,
  11. Site = new Site
  12. {
  13. },
  14. Scheduler = new QueueScheduler()
  15. {
  16. },
  17. StartUrls=new Dictionary<string, Dictionary<string, object>> {
  18. { "http://list.jd.com/list.html?cat=9987,653,655&page=1&go=0&JL=6_0_0&ms=5", new Dictionary<string, object> { { "name","手机" }, { "cat3","9987" } } },
  19. },
  20. Pipeline = new MysqlPipeline()
  21. {
  22. ConnectString = "[your mysql connect string]"
  23. },
  24. Downloader = new HttpDownloader()
  25. };
  26. return new SpiderContextBuilder(context, typeof(Product));
  27. }
  28.  
  29. [Schema("jd", "sku_v2", Suffix = TableSuffix.Monday)]
  30. [TargetUrl(new[] { @"page=[0-9]+" }, "//*[@id=\"J_bottomPage\"]")]
  31. [TypeExtractBy(Expression = "//div[contains(@class,'j-sku-item')]", Multi = true)]
  32. [Indexes(Primary = "sku")]
  33. public class Product : ISpiderEntity
  34. {
  35. [StoredAs("category", DataType.String, 20)]
  36. [PropertyExtractBy(Expression = "name", Type = ExtractType.Enviroment)]
  37. public string CategoryName { get; set; }
  38.  
  39. [StoredAs("cat3", DataType.String, 20)]
  40. [PropertyExtractBy(Expression = "cat3", Type = ExtractType.Enviroment)]
  41. public int CategoryId { get; set; }
  42.  
  43. [StoredAs("url", DataType.Text)]
  44. [PropertyExtractBy(Expression = "./div[1]/a/@href")]
  45. public string Url { get; set; }
  46.  
  47. [StoredAs("sku", DataType.String, 25)]
  48. [PropertyExtractBy(Expression = "./@data-sku")]
  49. public string Sku { get; set; }
  50.  
  51. [StoredAs("commentscount", DataType.String, 20)]
  52. [PropertyExtractBy(Expression = "./div[@class='p-commit']/strong/a")]
  53. public long CommentsCount { get; set; }
  54.  
  55. [StoredAs("shopname", DataType.String, 100)]
  56. [PropertyExtractBy(Expression = "./div[@class='p-shop hide']/span[1]/a[1]")]
  57. public string ShopName { get; set; }
  58.  
  59. [StoredAs("name", DataType.String, 50)]
  60. [PropertyExtractBy(Expression = "./div[@class='p-name']/a/em")]
  61. public string Name { get; set; }
  62.  
  63. [StoredAs("shopid", DataType.String, 25)]
  64. public string ShopId { get; set; }
  65.  
  66. [StoredAs("venderid", DataType.String, 25)]
  67. [PropertyExtractBy(Expression = "./@venderid")]
  68. public string VenderId { get; set; }
  69.  
  70. [StoredAs("jdzy_shop_id", DataType.String, 25)]
  71. [PropertyExtractBy(Expression = "./@jdzy_shop_id")]
  72. public string JdzyShopId { get; set; }
  73.  
  74. [StoredAs("cdate", DataType.Time)]
  75. [PropertyExtractBy(Expression = "now", Type = ExtractType.Enviroment)]
  76. public DateTime CDate { get; set; }
  77. }
  78. }
  1. JdSkuSpider spiderBuilder = new JdSkuSpider();
  2. var context = spiderBuilder.GetBuilder().Context;
  3. ContextSpider spider = new ContextSpider(context);
  4. spider.Run();

五 ,代码地址

https://github.com/zlzforever/DotnetSpider 望各位大佬加星:)

爬虫框架: DotnetSpider的更多相关文章

  1. [开源 .NET 跨平台 数据采集 爬虫框架: DotnetSpider] [一] 初衷与架构设计

    [DotnetSpider 系列目录] 一.初衷与架构设计 二.基本使用 三.配置式爬虫 四.JSON数据解析与配置系统 为什么要造轮子 同学们可以去各大招聘网站查看一下爬虫工程师的要求,大多是招JA ...

  2. [开源 .NET 跨平台 Crawler 数据采集 爬虫框架: DotnetSpider] [一] 初衷与架构设计

    [DotnetSpider 系列目录] 一.初衷与架构设计 二.基本使用 三.配置式爬虫 四.JSON数据解析与配置系统 五.如何做全站采集 为什么要造轮子 同学们可以去各大招聘网站查看一下爬虫工程师 ...

  3. [开源 .NET 跨平台 数据采集 爬虫框架: DotnetSpider] [二] 基本使用

    [DotnetSpider 系列目录] 一.初衷与架构设计 二.基本使用 三.配置式爬虫 四.JSON数据解析与配置系统 使用环境 Visual Studio 2015 or later .NET 4 ...

  4. [开源 .NET 跨平台 数据采集 爬虫框架: DotnetSpider] [三] 配置式爬虫

    [DotnetSpider 系列目录] 一.初衷与架构设计 二.基本使用 三.配置式爬虫 四.JSON数据解析与配置系统 上一篇介绍的基本的使用方式,虽然自由度很高,但是编写的代码相对还是挺多.于是框 ...

  5. [开源 .NET 跨平台 数据采集 爬虫框架: DotnetSpider] [四] JSON数据解析

    [DotnetSpider 系列目录] 一.初衷与架构设计 二.基本使用 三.配置式爬虫 四.JSON数据解析与配置系统 场景模拟 假设由于漏存JD SKU对应的店铺信息.这时我们需要重新完全采集所有 ...

  6. [开源 .NET 跨平台 Crawler 数据采集 爬虫框架: DotnetSpider] [五] 如何做全站采集?

    [DotnetSpider 系列目录] 一.初衷与架构设计 二.基本使用 三.配置式爬虫 四.JSON数据解析与配置系统 五.如何做全站采集 如何做全站采集? 很多同学加群都在问, 如何使用Dotne ...

  7. [开源 .NET 跨平台 Crawler 数据采集 爬虫框架: DotnetSpider] [四] JSON数据解析

    [DotnetSpider 系列目录] 一.初衷与架构设计 二.基本使用 三.配置式爬虫 四.JSON数据解析与配置系统 五.如何做全站采集 场景模拟 接上一篇, JD SKU对应的店铺信息是异步加载 ...

  8. [开源 .NET 跨平台 Crawler 数据采集 爬虫框架: DotnetSpider] [三] 配置式爬虫

    [DotnetSpider 系列目录] 一.初衷与架构设计 二.基本使用 三.配置式爬虫 四.JSON数据解析与配置系统 五.如何做全站采集 上一篇介绍的基本的使用方式,自由度很高,但是编写的代码相对 ...

  9. [开源 .NET 跨平台 Crawler 数据采集 爬虫框架: DotnetSpider] [二] 基本使用

    [DotnetSpider 系列目录] 一.初衷与架构设计 二.基本使用 三.配置式爬虫 四.JSON数据解析与配置系统 五.如何做全站采集 使用环境 Visual Studio 2017 .NET ...

随机推荐

  1. 【转】[Mysql] Linux Mysql 日志专题

    原文链接:http://blog.csdn.net/xiaoxu0123/article/details/6258538 1, 设置存放的目录: [root@Linux etc]# more /etc ...

  2. Android ReceiverCallNotAllowedException: BroadcastReceiver components are not allowed to register to receive intents

    ReceiverCallNotAllowedException mContext.registerReceiver()不能在BroadcastReceiver的onReceive()里面调用 可以通过 ...

  3. jquery ajax调用返回json格式数据处理

    Ajax请求默认的都是异步的 如果想同步 async设置为false就可以(默认是true) var html = $.ajax({ url: "some.php", async: ...

  4. java web从零单排第二十一期《Hibernate》主键的生成方式,用户增加与显示用户列表

    1.新建register.jsp <%@ page language="java" import="java.util.*" pageEncoding=& ...

  5. JQuery EasyUI框架学习

    前言 新项目的开发前端技术打算採用EasyUI框架(基于EasyUI较为丰富的UI组件库),项目组长将前端EasyUI这块的任务分配给了我.在进行开发之前,须要我这菜鸟对EasyUI框架进行一些基础的 ...

  6. 在MySql中实现MemberShip的权限管理

    步骤: 1.在MySql种创建一个数据库,名称任意取,我们只是要得到一个空的数据库,我们假设这个数据库的名称为authentication. 2.在VS种创建一个Web应用程序,File——new—— ...

  7. How to Create Dump File for Applications

    使用WinDBG这个工具,可以在应用程序异常终止或者无响应时获取它的尸体,以用来解剖研究. Creating Dump File      在Vista环境中抓取Dump文件很方便,在task man ...

  8. 《WCF技术剖析》博文系列汇总[持续更新中]

    原文:<WCF技术剖析>博文系列汇总[持续更新中] 近半年以来,一直忙于我的第一本WCF专著<WCF技术剖析(卷1)>的写作,一直无暇管理自己的Blog.在<WCF技术剖 ...

  9. oracle逻辑导入小错:提示无法创建日志提示

    ***********************************************声明*************************************************** ...

  10. Thymeleaf Javascript 取值

    <script th:inline="javascript"> var openid = /*[[${session.wxuser.openId}]]*/ </s ...