node爬虫入门

爬虫其实就是模仿浏览器访问页面，然后把页面保存起来备用。

爬虫的方法，直接上代码：

function getUrl(url,success,error){

  let urlObj = urlParser.parse(url);

  let mod = null;

 //判断用是哪个协议，对应用哪个模块

  if(urlObj.protocol=='http:'){

    mod = require('http');

  }else{

    mod = require('https');

  }

  let req = mod.request({

        hostname: urlObj.hostname,

        path: urlObj.path

      },res=>{

      //如果是200表示成功，则把buffer用数组存起来，end的时候发给success回调

      if(res.statusCode==200){

        let arr=[];

        res.on('data',buffer=>{

          arr.push(buffer);

        })

        res.on('end',_=>{

          let b = Buffer.concat(arr);

          success && success(b);

        })

      }

      // 如果是重定向，拿到重定向地址res.headers.location，递归自己

      else if(res.statusCode==301||res.statusCode==302){

        getUrl(res.headers['location'],success,error)

      }

      //其他则是出错了

      else{

        error && error(res.statusCode);

      }

  })

  req.end();

  req.on('error',err=>{

    error && error(err);

  })

}

上面的方法普通页面够用了，但是有些页面有些奇怪，例如天猫，编码是gbk，所以我们需要用把buffer进行gbk解码：

const gbk = require('gbk');

//把gbk Buffer解码并编码成utf8字符串

gbk.toString('utf-8',buffers)

获得html字符串后，我们通常的做法就是写正则来匹配,这样无疑是极其麻烦的，我们有一个node组件叫jsdom就让我们在node里面实现了获取dom的操作：

const jsdom = require('jsdom').JSDOM;

let document = (new jsdom(htmlStr)).window.document;

//之后可以用queryselector、getElementById。。。。。

node爬虫入门的更多相关文章

爬虫入门二 beautifulsoup
title: 爬虫入门二 beautifulsoup date: 2020-03-12 14:43:00 categories: python tags: crawler 使用beautifulsou ...
Python简单爬虫入门三
我们继续研究BeautifulSoup分类打印输出 Python简单爬虫入门一 Python简单爬虫入门二前两部主要讲述我们如何用BeautifulSoup怎去抓取网页信息以及获取相应的图片标题等信 ...
Python爬虫入门一之综述
大家好哈,最近博主在学习Python,学习期间也遇到一些问题,获得了一些经验,在此将自己的学习系统地整理下来,如果大家有兴趣学习爬虫的话,可以将这些文章作为参考,也欢迎大家一共分享学习经验. Pyth ...
Python简单爬虫入门二
接着上一次爬虫我们继续研究BeautifulSoup Python简单爬虫入门一上一次我们爬虫我们已经成功的爬下了网页的源代码,那么这一次我们将继续来写怎么抓去具体想要的元素首先回顾以下我们Bea ...
GJM : Python简单爬虫入门（二） [转载]
感谢您的阅读.喜欢的.有用的就请大哥大嫂们高抬贵手"推荐一下"吧!你的精神支持是博主强大的写作动力以及转载收藏动力.欢迎转载! 版权声明:本文原创发表于 [请点击连接前往] ,未经 ...
继续node爬虫 — 百行代码自制自动AC机器人日解千题攻占HDOJ
前言不说话,先猛戳 Ranklist 看我排名. 这是用 node 自动刷题大概半天的 "战绩",本文就来为大家简单讲解下如何用 node 做一个 "自动AC机&quo ...
Node.js 入门手册：那些最流行的 Web 开发框架
这篇文章与大家分享最流行的 Node.js Web 开发框架.Node 是一个服务器端 JavaScript 解释器,它将改变服务器应该如何工作的概念.它的目标是帮助程序员构建高度可伸缩的应用程序,编 ...
【特别推荐】Node.js 入门教程和学习资源汇总
这篇文章与大家分享一批很有用的 Node.js 入门教程和学习资源.Node 是一个服务器端的 JavaScript 解释器,它将改变服务器应该如何工作的概念.它的目标是帮助程序员构建高度可伸缩的应用 ...
让我们一起学习《Node.js入门》一书吧！
Node.js入门读完本书之后,你将完成一个完整的web应用,该应用允许用户浏览页面以及上传文件. 里面对一些知识的讲解,让你略窥Node.js的门径.最好一段代码一段代码的写下来,我的习惯是手里拿 ...

随机推荐

[CF963E]Circles of Waiting[高斯消元网格图优化+期望]
题意你初始位于 \((0,0)\) ,每次向上下左右四个方向走一步有确定的概率,问你什么时候可以走到以 \((0,0)\)为圆心,\(R\) 为半径的圆外. \(R\le 50\) 分析暴力 \ ...
11、Dockerfile实战-Tomcat
一.编写Dockerfile 具体步骤这里不再细说,直接看Dockerfile文件: FROM centos:7 MAINTAINER QUNXUE ENV VERSION=8.0.46 RUN yu ...
centos7 RabbitMQ部署
一.RabbitMQ简单介绍在日常工作环境中,你是否遇到过两个(多个)系统间需要通过定时任务来同步某些数据?你是否在为异构系统的不同进程间相互调用.通讯的问题而苦恼.挣扎?如果是,那么恭喜你,消息服务 ...
Unity光照与渲染设置学习笔记
学习了一下unity中有关光照和渲染的一些设置,现在才明白之前遇到的一些问题只是没有正确设置而已. unity不同版本的光照设置会有一些差异,而且可以调节的参数非常多,这里只记录一些重要的参数和使用方 ...
Unity3D工程全资源自动检测系统
是什么这系统到底是个啥本系统主要用于自动监测与检测各类型资源是否正常及满足指定规范,并在第一时间把出现的问题输出到控制台与保存到文件,以供对应的负责人及时修正. 为什么你可能经常遇到的问题资源 ...
FFMpeg笔记（六）滤镜命名规则及使用libavfilter对视频尺寸进行裁切
在ffmpeg框架中,滤镜(filter)功能通过libavfilter库实现. 一个filter可以同时有多个输入和输出.以图为例: 图中的一系列操作共使用了四个filter,分别是 spli ...
桌面输入法评测报告之搜狗拼音输入法vs必应拼音输入法
输入法是电脑用户不可或缺的软件,它几乎无时无刻不陪伴在使用者的身旁.一个优秀的输入法,应该满足客户对使用体验以及效率的需求.我们小队的任务便是对当今最为常用的两种输入法: 搜狗拼音输入法和必应拼音输入 ...
转发npm发布包的过程
老板,来个npm账号! 因为你的包是要放在npm上的,所以,没有npm的账号,根本什么活都干不了. 在npm上注册一个账号是很简单的,随便填一下用户名密码邮箱,然后人家就会发个邮件给你,然后就注册成功 ...
第二个Sprint冲刺第八天（燃尽图）
因为今天停电了,所以我们也休息一天!
week7：个人博客作业
这周有2个需要注意的地方. 1,课上这周是由张翼飞老师讲的课,上周已经听过老师讲的一节课了,这周发现,这个老师讲课是理论+案例,我每节课都在第一排坐的,我不知道其他人是什么想法,我是一上课,老师讲理 ...

node爬虫入门

node爬虫入门的更多相关文章

随机推荐

热门专题