使用Crawler框架搭建自己的爬虫框架MyCrawler

自己写一个爬虫框架的目的：

完美架构
- 在实际的数据采集编码过程中，发现代码比较乱，抓取数据，存储数据的代码混杂在一起，为了构建比较完美的数据采集框架
敏捷开发
- 将数据采集进行标准流程化，每个标准流程都封装成组件，在实际开发过程中直接调用组件即可，只需编写核心的逻辑
代码生成
- 可直接生成大部分的代码，开发者只需补充核心逻辑

爬虫框架与Web框架的对比：


	爬虫框架	Web框架
脚本类型	不区分客户端和服务端；控制台程序，是独立的进程	区分服务端和客户端，且是服务端程序；运行的容器是Web服务器
入口脚本	是爬虫脚本在运行的入口；例如：main.js	使用唯一的入口脚本，是服务区接收Web请求的入口；例如index.php
处理	已进程为核心	采用路由分发，控制器为中心的模式
数据存储	主要为数据插入存储	包括数据的增删改查
页面	从页面中采集数据	编写页面并使用数据渲染页面
中间件	过滤爬虫存储数据的职责链，通常指数据的除重去噪	过滤HTTP请求的职责链

爬虫框架MyCrawler的特性：

使用面向对象方法封装数据采集类
使用面向对象方法封装数据存储类
代码生成器
自动数据去重

UML中类关系详解

虚线箭头指向依赖
实线箭头指向关联
虚线三角指向接口
实线三角指向父类
空心菱形能分离而独立存在，是聚合
实心菱形精密关联不可分，是组合

MyCrawler爬虫框架类图

新建一个空项目，命名为MyCrawler

初始化package.json文件

npm init --yes

例如：

F:\project\MyCrawler>npm init --yes
Wrote to F:\project\MyCrawler\package.json:

{
  "name": "MyCrawler",
  "version": "1.0.0",
  "description": "",
  "main": "index.js",
  "scripts": {
    "test": "echo \"Error: no test specified\" && exit 1"
  },
  "keywords": [],
  "author": "",
  "license": "ISC"
}

下载安装Crawler框架

npm install crawler

例如：

F:\project\MyCrawler>npm install crawler
npm notice created a lockfile as package-lock.json. You should commit this file.
npm WARN MyCrawler@ No description
npm WARN MyCrawler@ No repository field.

+ crawler@
added  packages from  contributors and audited  packages .699s
found  vulnerabilities ( low,  moderate)
  run `npm audit fix` to fix them, or `npm audit` for details

注意：如果安装失败，则切换使用另一个网络重试，因为有可能是网络不好，或者网络无法达到目的主机

使用Crawler框架搭建自己的爬虫框架MyCrawler的更多相关文章

android studio 框架搭建：加入注解框架Annotations
参考github上的demo,新建一个project后,会有一个位于app文件夹下的局部build.gradle文件和一个位于根目录project下的全局build.gradle文件,我们要修改的是局 ...
JAVA 爬虫框架webmagic 初步使用Demo
一想到做爬虫大家第一个想到的语言一定是python,毕竟python比方便,而且最近也非常的火爆,但是python有一个全局锁的概念新能有瓶颈,所以用java还是比较牛逼的, webmagic 官网 ...
webapi框架搭建系列博客
webapi框架搭建系列博客 webapi框架搭建-创建项目(一) webapi框架搭建-创建项目(二)-以iis为部署环境的配置 webapi框架搭建-创建项目(三)-webapi owin web ...
手把手教你如何新建scrapy爬虫框架的第一个项目（上）
前几天给大家分享了如何在Windows下创建网络爬虫虚拟环境及如何安装Scrapy,还有Scrapy安装过程中常见的问题总结及其对应的解决方法,感兴趣的小伙伴可以戳链接进去查看.关于Scrapy的介绍 ...
小白学 Python 爬虫（33）：爬虫框架 Scrapy 入门基础（一）
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
C# 爬虫框架实现概述
目录: C# 爬虫框架实现概述 C# 爬虫框架实现流程_爬虫结构/原理 C# 爬虫框架实现流程_各个类开发 C# 爬虫框架实现流程_遇到的问题 C# 爬虫框架实现后记 C#爬虫框架实现源代 ...
[开源 .NET 跨平台 Crawler 数据采集爬虫框架: DotnetSpider] [一] 初衷与架构设计
[DotnetSpider 系列目录] 一.初衷与架构设计二.基本使用三.配置式爬虫四.JSON数据解析与配置系统五.如何做全站采集为什么要造轮子同学们可以去各大招聘网站查看一下爬虫工程师 ...
怎么在32位windows系统上搭建爬虫框架scrapy？
禁止转载: 自学python,然后搭建爬虫框架scrapy.费了我一上午的心血.终于搭建成功,以防以后忘记搭建流程,特此撰写此贴,开写 ******************************** ...
python网络爬虫（14）使用Scrapy搭建爬虫框架
目的意义爬虫框架也许能简化工作量,提高效率等.scrapy是一款方便好用,拓展方便的框架. 本文将使用scrapy框架,示例爬取自己博客中的文章内容. 说明学习和模仿来源:https://book ...

随机推荐

springboot~ EventListener事件监听的使用
EventListener事件触发和监听器可以对代码解耦,在一些与业务无关的,通用的操作方法,我们可以把它设计成事件监听器,像通知,消息这些模块都可以这样设计. 事件源 @Getter @Builde ...
【一套代码小程序&Native&Web阶段总结篇】可以这样阅读Vue源码
前言前面我们对微信小程序进行了研究:[微信小程序项目实践总结]30分钟从陌生到熟悉在实际代码过程中我们发现,我们可能又要做H5站又要做小程序同时还要做个APP,这里会造成很大的资源浪费,如果设定一 ...
【Java】留下没有基础眼泪的面试题
前言只有光头才能变强本文力求简单讲清每个知识点,希望大家看完能有所收获一.如何减少线程上下文切换使用多线程时,不是多线程能提升程序的执行速度,使用多线程是为了更好地利用CPU资源! 程序在执行 ...
Spring Boot配置定时任务
在项目开发过程中,经常需要定时任务来做一些内容,比如定时进行数据统计(阅读量统计),数据更新(生成每天的歌单推荐)等. Spring Boot默认已经实现了,我们只需要添加相应的注解就可以完成定时任务 ...
【春华秋实】.NET Core之只是多看了你一眼
感官初体验技术学习是一件系统性的事情,如果拒绝学习,那么自己就会落后以至于被替代..NET也是一样,当开源.跨平台成为主流的时候,如果再故步自封,等待.NET的就是死路一条,幸好.NET Core问 ...
在嵌入式设备中使用 JavaScript 的前景
by Conmajia PC上的JavaScript已经发展到ECMAScript 6(ES6),马上ES10都快出来了(虽然还是草案),但是硬件上的JS却很少听说.这几年手持设备/可穿戴设备的发展非 ...
使用seaborn探索泰坦尼克号上乘客能否获救
titanic数据集是个著名的数据集.kaggle上的titanic乘客生还率预测比赛是一个很好的入门机器学习的比赛. 数据集下载可以去https://www.kaggle.com/c/titanic ...
解决将Excel表导入到SQL Server数据库时出现Text was truncated or one or more characters had no match in the target code错误
编写python爬虫程序可以在电商.旅游等网站上爬取相关评论数据,这些数据可以用于词云制作.感情词分析.提取关键词等,也可以将爬取下来的数据以自己的方式进行展示.评论数据爬取下来后,就要考虑怎样入库, ...
Java初学习-常见单词
implements 实行/实现用于实现接口(interface) extends 延伸/扩展用于类的继承 container 容 ...
ASP.NET MVC 5 實作 GridView 分頁
本文用 ASP.NET MVC 5 實作一個 GridView,功能包括: 分頁(paging).關鍵字過濾(filtering).排序(sorting).AJAX 非同步執行,外觀上亦支援 Resp ...

使用Crawler框架搭建自己的爬虫框架MyCrawler

自己写一个爬虫框架的目的：

爬虫框架与Web框架的对比：

爬虫框架MyCrawler的特性：

UML中类关系详解

使用Crawler框架搭建自己的爬虫框架MyCrawler的更多相关文章

随机推荐

热门专题