nodejs爬虫案例笔记

用nodeJs制作一个简单的网页爬虫

主要分为三个步骤，向目标请求数据，处理数据，打印数据。需要用到的模块有http，cheerio。

1.准备步骤，引入要使用的模块

2.向目标请求数据

http.get(url,function(res){

    var html='';

    res.on("data",function(data){

        html+=data;

    })

     res.on("end",function(){

         var couseData=filterChapter(html);//处理

         printcouse(couseData);//打印

     })

}).on("error",function(){

    console.log("something is error")

})

知识点：res服务器响应有两个事件，data事件是数据传输时触发，如果数据量比较大的话，会将数据分为小段小段的接受，每次都会触发data事件。end事件，所有数据接受完毕时触发。

3.处理数据

function filterChapter(html){

    var $=cheerio.load(html);

    var chapters=$(".chapter");

    var couseData=[];

    chapters.each(function(){

        var chapter=$(this);

        var chapterTil=chapter.find("strong").text();

        var chapterCon=chapter.find(".video").children("li");

        var chapterData={

            chapterTil:chapterTil,

            chapterCon:[]

        }

        chapterCon.each(function(){

            var chapterDetail=$(this).find(".studyvideo");

            var chapterDetailTil=chapterDetail.text();

            var id=chapterDetail.attr("href").split("video/")[1];

            chapterData.chapterCon.push({

                title:chapterDetailTil,

                id:id

            })

        })

        couseData.push(chapterData)

    })

    return couseData;

}

知识点：cheerio模块几乎能够解析任何的 HTML 和 XML document，并用jquery来进行dom操作。它为服务器特别定制的，快速、灵活、实施的jQuery核心实现。

在这里是要找到课程章节名称及子栏目

4.打印数据

function printcouse(couseData){

    couseData.forEach(function(item){

        chapterTil=item.chapterTil;

        console.log(chapterTil+"\n");

        item.chapterCon.forEach(function(chapterDetail){

            console.log(chapterDetail.id+chapterDetail.title+"\n")

        })

    })

}

以上只能抓取一个页面的课程数据，接下来是要在此基础上抓取多个页面的数据。

增加模块promise

1.对请求数据部分的处理，改成返回一个promise对象，方便后续的并发控制

function getPageAsync(url){

    return new Promise(function(resolve,reject){

        console.log("正在爬取课程")

        http.get(url,function(res){

            var html='';

            res.on("data",function(data){

                html+=data;

            })

             res.on("end",function(){

                 resolve(html)//resolve就是promise对象接下来要回调的函数

             })

            }).on("error",function(e){

                reject(e)

                console.log("something is error")

            })

    })

}

2.根据不同的url返回promise对象，将他们都放到数组里面

var videoIds=[348,259,197,75];

var fetchCouseArr=[];//promiser对象数组

videoIds.forEach(function(id){

    fetchCouseArr.push(getPageAsync(baseUrl+id))//存入数组

})

3.并发控制，同时抓取多个页面数组

Promise

.all(fetchCouseArr)//all方法接受一个数组，返回多个promise对象，每个promise对象都执行接下来的操作

.then(function(pages){//pages就是每个要去爬的页面

    var cousesData=[]

    pages.forEach(function(pages){

        var courses=filterChapter(pages)//数据处理

        cousesData.push(courses)

    })

    cousesData.sort(function(a,b){

        return a.number<b.number

    })

    printcouse(cousesData)//数据打印

})

知识点：promise的all方法接受一个数组参数，对于数组内的每个promise对象都执行接下来的操作，上面请求数据时最后返回的reslove(html)在这里就是then方法内的回调函数，pages参数就是请求到的html数据。

4.数据处理和数据打印原理还是和最开始一样

function filterChapter(html){

    var $=cheerio.load(html);

    var Title=$("#main .path>a").eq(3).children("span").text();

    var number=parseInt($(".meta-value").eq(2).children("strong").text(),10); 

    var couseData={

        Title:Title,

        videos:[],

        number:number

    };

     var chapters=$(".chapter");

    chapters.each(function(){

        var chapter=$(this);

        var chapterTil=chapter.find("strong").text();

        var chapterCon=chapter.find(".video").children("li");

        var chapterData={

            chapterTil:chapterTil,

            chapterCon:[]

        }

        chapterCon.each(function(){

            var chapterDetail=$(this).find(".studyvideo");

            var chapterDetailTil=chapterDetail.text();

            var id=chapterDetail.attr("href").split("video/")[1];

            chapterData.chapterCon.push({

                title:chapterDetailTil,

                id:id

            })

        })

        couseData.videos.push(chapterData)

    })

    return couseData;

}

function printcouse(cousesData){

    cousesData.forEach(function(courseData){

        console.log(courseData.number+'人学过'+courseData.Title+'\n')

    })

    cousesData.forEach(function(courseData){

        console.log('###'+courseData.Title+'\n')

        courseData.videos.forEach(function(item)

        {

        //console.log('###'+item.chapterTil+'\n')

        var chapterTil=item.chapterTil;

        console.log(chapterTil+"\n");

        item.chapterCon.forEach(function(chapterDetail){

            console.log(chapterDetail.id+chapterDetail.title+"\n")

        })

    })

    })

}

nodejs爬虫案例笔记的更多相关文章

nodejs爬虫笔记(三)---爬取YouTube网站上的视频信息
思路:通过笔记(二)中代理的设置,已经可以对YouTube的信息进行爬取了,这几天想着爬取网站下的视频信息.通过分析YouTube,发现可以从订阅号入手,先选择几个订阅号,然后爬取订阅号里面的视频分类 ...
nodejs爬虫笔记(二)---代理设置
node爬虫代理设置最近想爬取YouTube上面的视频信息,利用nodejs爬虫笔记(一)的方法,代码和错误如下 var request = require('request'); var chee ...
nodejs爬虫--抓取CSDN某用户全部文章
最近正在学习node.js,就像搞一些东西来玩玩,于是这个简单的爬虫就诞生了. 准备工作 node.js爬虫肯定要先安装node.js环境创建一个文件夹在该文件夹打开命令行,执行npm init初 ...
NodeJS 爬虫爬取LOL英雄联盟的英雄信息，批量下载英雄壁纸
工欲善其事,必先利其器,会用各种模块非常重要. 1.模块使用 (1)superagent:Nodejs中的http请求库(每个语言都有无数个,java的okhttp,OC的afnetworking) ...
Nodejs爬虫进阶教程之异步并发控制
Nodejs爬虫进阶教程之异步并发控制之前写了个现在看来很不完美的小爬虫,很多地方没有处理好,比如说在知乎点开一个问题的时候,它的所有回答并不是全部加载好了的,当你拉到回答的尾部时,点击加载更多,回 ...
NodeJS爬虫系统初探
NodeJS爬虫系统 NodeJS爬虫系统 0. 概论爬虫是一种自动获取网页内容的程序.是搜索引擎的重要组成部分,因此搜索引擎优化很大程度上是针对爬虫而做出的优化. robots.txt是一个文本文 ...
关于Python网络爬虫实战笔记③
Python网络爬虫实战笔记③如何下载韩寒博客文章 Python网络爬虫实战笔记③如何下载韩寒博客文章 target:下载全部的文章 1. 博客列表页面规则也就是, http://blog.sina ...
python网络爬虫学习笔记
python网络爬虫学习笔记 By 钟桓 9月 4 2014 更新日期:9月 4 2014 文章文件夹 1. 介绍: 2. 从简单语句中開始: 3. 传送数据给server 4. HTTP头-描写叙述 ...
nodejs爬虫——汽车之家所有车型数据
应用介绍项目Github地址:https://github.com/iNuanfeng/node-spider/ nodejs爬虫,爬取汽车之家(http://www.autohome.com.cn ...

随机推荐

TCP粘包/拆包（Netty权威指南）
无论是服务端还是客户端,当我们读取或者发送消息的时候,都需要考虑TCP底层的粘包/拆包机制. TCP粘包/拆包 TCP是个“流”协议,所谓流,就是没有界限的一串数据.大家可以想想河里的流水,是连成一片 ...
HTML的发展历史
HTML是Web统一语言,这些容纳在尖括号里的简单标签,构成了如今的Web,1991年,Tim Berners-Lee编写了一份叫做“HTML标签”的文档,里面包含了大约20个用来标记网页的HTML标 ...
X5内核浏览器video自动全屏解决办法-canvas
最近在做手机端上面播放视频的项目,但是在安卓上面,video的播放是脱离页面,置于最顶层的,所以带来了很多问题,为了解决这个问题,查看了多方资料,写了下面简单的demo,方便以后使用. 下面就是运用c ...
Python函数Day4
一.内容补充 __iter__() 就是 iter(),iter() 调用的就是__iter__() __next__() 就是 next(),next()调用的就是__next__() __clos ...
电池管理系统（BMS）
概述电池管理系统(BMS)为一套保护动力电池使用安全的控制系统,时刻监控电池的使用状态,通过必要措施缓解电池组的不一致性,为新能源车辆的使用安全提供保障. 经纬恒润在控制系统开发方面拥有雄厚的实力和 ...
异步委托方式取消BackGroundWorker执行无循环的耗时方法
边学习边分享,纯属抛砖引玉. 线程的一个好处是异步的执行操作,在winform中,很多耗时操作执行时,为优化用户体验,避免长时间等待,从而运用线程技术异步的执行耗时操作,但不会阻塞主线程. 最近系统很 ...
1205 CSRF跨站请求与django中的auth模块使用
目录今日内容昨日回顾基于配置文件的编程思想 importlib模块简单代码实现跨站请求伪造csrf 1. 钓鱼网站如何实现模拟该现象的产生 2. 解决问题解决 {% csrf_toke ...
《AlwaysRun!》第五次作业：项目需求分析改进与系统设计
项目内容这个作业属于哪个课程 2016级软件工程(西北师范大学) 这个作业的要求在哪里实验九团队作业5—团队项目需求改进与系统设计团队名称 Always Run! 作业学习目标 (1)掌握 ...
UML之九种图
UML说是九种图吧!其实是众说纷纭,不管有几种图,我们只要能够很好的运用这几张图就好,主要有用例图.类图.对象图.状态图.活动图.序列图.协作图.构件图和部署图,至于包图是否属于这九种图,我也理不清楚 ...
python 查询每周最后一个工作日
背景: 做定时任务时,一般都是写死每周五XXXXX,但有时遇到节假日的情况,周五可能不是本周最后一个工作日代码如下: import urllib2,datetime,json nowTime = d ...

nodejs爬虫案例笔记

nodejs爬虫案例笔记的更多相关文章

随机推荐

热门专题