0. 通用爬虫框架包括:

(1) 将爬取url加入队列,并获取指定url的前端资源(crawler爬虫框架主要使用Crawler类进行抓取网页)

(2)解析前端资源,获取指定所需字段的值,即获取有价值的信息(crawler框架主要使用Cheerio解析DOM)

(3)将有价值的字段内容存储,持久化到数据库,或直接使用IO写入文件(使用Node.js的IO操作或数据库操作)

特性:

(1)一般获取到前端资源后通过管道传输数据并异步处理数据;或者使用异步回调函数进行处理数据

1. node-crawler的下载与安装

(1)使用Web Storm新建一个空项目

(2)在空项目下执行npm init --yes创建packages.json文件管理已安装包

(3)安装爬虫crawler包

npm install crawler

a. 在nodejs根目录下运行, 也能在项目根目录下运行, 在哪个目录下运行则安装在哪个目录的node_modules目录下

b. 如果在应用程序的根目录下运行,则会安装在项目根目录下生成文件夹node_modules, 里面是安装包

2. 第一个简单的crawler爬虫应用程序

server.js

var Crawler = require("crawler");

var c = new Crawler({
    maxConnections : 10,
    // 这个回调每个爬取到的页面都会触发
    callback : function (error, res, done) {
        if(error){
            console.log(error);
        }else{
            var $ = res.$;
            // $默认使用Cheerio
            // 这是为服务端设计的轻量级jQuery核心实现
            console.log($("title").text());
        }
        done();
    }
});

// 爬取一个URL,使用默认的callback
c.queue('http://www.taobao.com');

// 爬取URL列表
c.queue(['http://www.jd.com/','http://www.baidu.com']);

// 爬取页面,自定义callback和参数
c.queue([{
    uri: 'http://www.youku.com/',
    jQuery: false,

    // 覆盖全局的callback
    callback: function (error, res, done) {
        if(error){
            console.log(error);
        }else{
            console.log('Grabbed', res.body.length, 'bytes');
        }
        done();
    }
}]);

// 在队列中加入一些HTML代码,无需爬取(mostly for tests)
c.queue([{
    html: '<p>This is a <strong>test</strong></p>'
}]);

在控制台输入node server.js运行; 或者使用IDE工具中的Debugger工具

爬虫Crawler经典模型伪代码:

c = new Crawler();

handler = [{
    'uri': url,
    'jquery':true,
    'callback': function(){
     data = crawler_get_data();
     res = db_store_data(data);      # 也可以在这里获取新的url,并将新的url添加到爬虫中
    }
}];

c.queue(handler)

3. 使用Cheerio即jQuery的核心实现来操作DOM元素,所有操作DOM的API和jQuery是一模一样的

优点:

a. 熟悉的语法,和jQuery操作DOM是一模一样的

b. 解析速度快,至少是JSDOM的8倍

c. 极其灵活,使用htmlparser2,几乎可以解析所有的html和xml

(1)解析html

$ = cheerio.load(html, {})

(2)选择器

(3)属性操作

attr()

removeAttr()

addClass()

removeClass()

hasClass()

(4)遍历

find()

parent()

next()

prev()

siblings()

children()

each()

map()

filter()

first()

last()

eq()

(5)操作DOM

append()

prepend()

before()

after()

remove()

replaceWith()

empty()

html()

text()

(6)解析和渲染

html()

toArray()

clone()

如何将HTML页面提取出部分文本内容
  • 去除网页中的HTML标签
  • 将网页中的HTML标签替换为空字符串
  • 使用cherrio模块实现内容提取

使用Node.js搭建数据爬虫crawler的更多相关文章

  1. 基于Node.js的强大爬虫 能直接发布抓取的文章哦

    基于Node.js的强大爬虫 能直接发布抓取的文章哦 基于Node.js的强大爬虫能直接发布抓取的文章哦!本爬虫源码基于WTFPL协议,感兴趣的小伙伴们可以参考一下 一.环境配置 1)搞一台服务器,什 ...

  2. Node.js 网页瘸腿爬虫初体验

    延续上一篇,想把自己博客的文档标题利用Node.js的request全提取出来,于是有了下面的初哥爬虫,水平有限,这只爬虫目前还有点瘸腿,请看官你指正了. // 内置http模块,提供了http服务器 ...

  3. 使用Node.js搭建静态资源服务器

    对于Node.js新手,搭建一个静态资源服务器是个不错的锻炼,从最简单的返回文件或错误开始,渐进增强,还可以逐步加深对http的理解.那就开始吧,让我们的双手沾满网络请求! Note: 当然在项目中如 ...

  4. 使用 Node.js 搭建微服务网关

    目录 Node.js 是什么 安装 node.js Node.js 入门 Node.js 应用场景 npm 镜像 使用 Node.js 搭建微服务网关 什么是微服务架构 使用 Node.js 实现反向 ...

  5. node.js主从分布式爬虫

    前言 前文介绍过用Python写爬虫,但是当任务多的时候就比较慢, 这是由于Python自带的http库urllib2发起的http请求是阻塞式的,这意味着如果采用单线程模型,那么整个进程的大部分时间 ...

  6. 使用 Node.js 搭建 Web 服务器

    使用Node.js搭建Web服务器是学习Node.js比较全面的入门教程,因为实现Web服务器需要用到几个比较重要的模块:http模块.文件系统.url解析模块.路径解析模块.以及301重定向技术等, ...

  7. node.js搭建代理服务器请求数据

    1.引入node.js中的模块 var http = require("http"); var url = require("url"); var qs = r ...

  8. node.js 89行爬虫爬取智联招聘信息

    写在前面的话, .......写个P,直接上效果图.附上源码地址  github/lonhon ok,正文开始,先列出用到的和require的东西: node.js,这个是必须的 request,然发 ...

  9. Node.js大众点评爬虫

    大众点评上有很多美食餐馆的信息,正好可以拿来练练手Node.js. 1. API分析 大众点评开放了查询商家信息的API,这里给出了城市与cityid之间的对应关系,链接http://m.api.di ...

随机推荐

  1. Java开发笔记(四)Java帝国的度量衡

    秦始皇统一中国之后,实行“书同文,车同轨”,把货币和各种度量衡都统一起来,从而缔造了一个秩序井然的帝国.既然统一度量衡是每个帝国都要做的事情,Java帝国也不例外,对于人生地不熟的初学者来说,只有认识 ...

  2. Centos7.3安装和配置Mysql5.7

    主要转自这篇文章:https://www.cnblogs.com/wishwzp/p/7113403.html 这篇文章已经讲的很详细,亲测可用,对于基本不懂linux的小白应该也能看得懂.只是没有修 ...

  3. springboot之多数据源配置JdbcTemplate

    springboot多数据源配置,代码如下 DataSourceConfig package com.rookie.bigdata.config; import org.springframework ...

  4. springboot 使用 redis

    springboot 自己是实现了一套 redis 缓存框架, 地址: https://www.cnblogs.com/huanggy/p/9473822.html, 通过配置即可轻松愉快地实现 某些 ...

  5. ButterKnife注解式绑定控件

    Butter Knife Android为控件设计的注解绑定库. github地址:https://github.com/JakeWharton/butterknife 添加依赖:(具体看github ...

  6. 或许,挂掉的点总是出人意料(hw其实蛮有好感的公司)

    1:问了有没有考研的打算,为什么: ` 实验室指导自己的两个学长, 他们两个都是不考研党派,当然两个学长本科都进入了不错的公司hw,xm,耳濡目染就自己也就不想去考研了: 跟一些已经工作的程序员聊天, ...

  7. Python使用Plotly绘图工具,绘制柱状图

    使用Plotly绘制基本的柱状图,需要用到的函数是graph_objs 中 Bar函数 通过参数,可以设置柱状图的样式. 通过barmod进行设置可以绘制出不同类型的柱状图出来. 我们先来实现一个简单 ...

  8. redis 五大数据结构__常用命令

    linux 下下载redis数据库 apt install redis 如果提示权限不够的话, 直接提权: sudo apt install redis-server linux启用.停止服务 ser ...

  9. 在java中写出完美的单例模式

    1. 前言 单例(Singleton)应该是开发者们最熟悉的设计模式了,并且好像也是最容易实现的——基本上每个开发者都能够随手写出——但是,真的是这样吗? 作为一个Java开发者,也许你觉得自己对单例 ...

  10. Docker 创建 Jira Core(Jira SoftWare) 7.12.3 中文版

    目录 目录 1.介绍 1.1.什么是 JIRA Core? 1.2.什么是 JIRA SoftWare 2.JIRA 的官网在哪里? 3.如何下载安装? 4.对 JIRA 进行配置 4.1.JIRA ...