nodeJS实现简易爬虫

需求：使用nodeJS爬取昵图网某个分类下的图片并存入本地

运用nodeJS自带系统模块http、fs

示例代码:

var http =require('http');

var fs =require('fs');

var curentPage=1; //当前图片页数

var maxcurentPage=5;//最大页数

//获取图片地址

function getData(){

    let url = 'http://www.nipic.com/photo/xiandai/jiaotong/index.html?page='+curentPage

    http.get(url,(res)=>{

        var data = '';

        res.on('data',(a)=>{

            data+=a.toString();

        })

        res.on('end',()=>{

            let reg = /<img src="(.+?)" data-src="(.*?)"  alt="(.*?)" \/>/g

            let arr=[];

            while (reg.exec(data)){

                arr.push(reg.exec(data)[2]);

            }

            for(i in arr){

                (function(i){

                    setTimeout(()=>{

                        getImg(arr[i])

                    },500*i)

                })(i)

            }

            if (curentPage < maxcurentPage){

                curentPage++;

                arguments.callee();

            }

        })

    })

}

//图片写入img文件夹

function getImg(url){

    let u = url.replace(/\/pic\//,'/file/')

        .replace(/_4.jpg/,'_2.jpg');

    http.get(u,(res)=>{

        let name = new Date().getTime();

        let stream = fs.createWriteStream('./img/' + name + '.png');

        res.pipe(stream);

    })

}

getData();

nodeJS实现简易爬虫的更多相关文章

NodeJS概述2-事件插件-简易爬虫
事件 events 模块原生事件写法 /* * 1. 事件分类 * DOM0级事件 - on + eventType * DOM2级事件 - 事件监听 * 2. 事件构成部分有哪些? dom.o ...
python简易爬虫来实现自动图片下载
菜鸟新人刚刚入住博客园,先发个之前写的简易爬虫的实现吧,水平有限请轻喷. 估计利用python实现爬虫的程序网上已经有太多了,不过新人用来练手学习python确实是个不错的选择.本人借鉴网上的部分实现 ...
使用 HttpClient 和 HtmlParser 实现简易爬虫
这篇文章介绍了 HtmlParser 开源包和 HttpClient 开源包的使用,在此基础上实现了一个简易的网络爬虫 (Crawler),来说明如何使用 HtmlParser 根据需要处理 Inte ...
php+phpquery简易爬虫抓取京东商品分类
这是一个简单的php加phpquery实现抓取京东商品分类页内容的简易爬虫.phpquery可以非常简单地帮助你抽取想要的html内容,phpquery和jquery非常类似,可以说是几乎一样:如果你 ...
[转]使用 HttpClient 和 HtmlParser 实现简易爬虫
http://www.ibm.com/developerworks/cn/opensource/os-cn-crawler/ http://blog.csdn.net/dancen/article/d ...
nodejs的简单爬虫
闲聊好久没写博客了,前几天小颖在朋友的博客里看到了用nodejs的简单爬虫.所以小颖就自己试着做了个爬博客园数据的demo.嘻嘻...... 小颖最近养了条泰日天,自从养了我家 ...
爬虫系列1：python简易爬虫分析
决定写一个小的爬虫系列,本文是第一篇,讲爬虫的基本原理和简易示例. 1.单个网页的简易爬虫以下爬虫的主要功能是爬取百度贴吧中某一页面的所有图片.代码由主要有两个函数:其中getHtml()通过页面u ...
nodejs 快要变成爬虫界的王者
nodejs 快要变成爬虫界的王者爬虫这东西是很多数据采集必须要的东西. 但是现在随着网页不断发展,已经出现了出单纯的网页,到 ajax 网页, 再到 spa , 再到 websocket 应用,一 ...
一次使用NodeJS实现网页爬虫记
前言几个月之前,有同事找我要PHP CI框架写的OA系统.他跟我说,他需要学习PHP CI框架,我建议他学习大牛写的国产优秀框架QeePHP. 我上QeePHP官网,发现官方网站打不开了,GOOGL ...

随机推荐

[Web Pdf] flying-saucer + iText + Freemarker生成pdf 跨页问题
转载于: https://blog.csdn.net/qq_31980421/article/details/79662988 flying-saucer + iText + Freemarker实 ...
hinkphp项目部署到Linux服务器上报错“模板不存在”如何解决
检查了服务器上的文件,并没有缺少文件,再次上传文件到服务器,还是报错.莫名其妙,怀疑是代码问题. 仔细检查后,发现是模板的文件名问题: 用过TP的都知道:thinkphp会在$this->dis ...
Torch-Models 别人训练的FastNeuralStyle
This is the pink style's image: This is the triangle one: The fire ones come from this image: And th ...
Ubuntu 上多版本软件管理方法
https://linuxize.com/post/how-to-install-gcc-compiler-on-ubuntu-18-04/ sudo apt install software-pro ...
使用Win10自带的截图工具
Win10自带的截图工具还是可以的,快捷键win+shift+s 截完图之后会有一个通知,你可以对截图进行二次编辑,编辑之后默认是立即保存的再搭配着Fu图床工具使用,简直太爽了讲一下怎么打开通知
导出excel按照指定格式
1.项目有个需求,要按照特定格式导出Excel表格. 正常的都是一行 ,下面是数据.这次有个变动,就是每隔几列要换行,下面是数据.在下面是数据部分.花了一上午写了下需求,不难但是花时间 //实现特 ...
CentOS / RHEL 内核升级
1. 查看当前内核版本 [root@192.168.118.11 ~]#cat /etc/redhat-release CentOS Linux release 7.7.1908 (Core) [ro ...
Centos各版本系统ISO镜像下载地址
https://www.centos.org/download/mirrors/ 需要在里面一个个看,有些是没有旧版本镜像的补充: 上面这个方法很难再找到旧版本了更好的方法如下:以下载Centos ...
dockerfile的常用基础镜像——java镜像
1. java镜像使用Java镜像的最直接方法是把它作为基础镜像或运行时环境. 1.1 镜像tagjava:<version>如果你不确定你需要什么,那么请用这个tag.它可以作为一个运行 ...
服务器端debug操作
写好的代码打个包放在服务器上,发现与理想的情况下不一致.查看log日志又觉得很烦,毕竟debug调试才是王道. 下面来说说怎么debug调试服务器上的.最好服务器上的代码和本地的保存一致,这样误差会小 ...

nodeJS实现简易爬虫

nodeJS实现简易爬虫

需求：使用nodeJS爬取昵图网某个分类下的图片并存入本地

示例代码:

nodeJS实现简易爬虫的更多相关文章

随机推荐

热门专题