nodeJs爬虫获取数据

var http=require('http');

var cheerio=require('cheerio');//页面获取到的数据模块

var url='http://www.jcpeixun.com/lesson/1512/';

function filterData(html){

    /*所要获取到的目标数组 
　　 var courseData=[{

        chapterTitle:"",

        videosData:{

            videoTitle:title,

            videoId:id,

            videoPrice:price

        }

    }] */

    var $=cheerio.load(html);

    var courseData=[];

    var chapters=$(".list-collapse");

    chapters.each(function(item){

        var chapterTitle=$(this).find(".collapse-head").find("label").text();

        var videos=$(this).find(".listview5").children("li");

        var chaptersData={

            chaptersTitle:chapterTitle,

            videosData:[]

        }

        videos.each(function(item){

            var videoTitle=$(this).find(".ml10").attr('data-lesson-name');

            var videoId=$(this).find(".ml10").attr('data-lesson-id');

            var vadeoPrice=$(this).find(".colblue").text();

            chaptersData.videosData.push({

                title:videoTitle,

                id:videoId,

                price:vadeoPrice

            })

        })

        courseData.push(chaptersData)

    })

    return courseData

}

function printCourseInfo(courseData){

    courseData.forEach(function(item){

        console.log(item.chaptersTitle+'\n');

        item.videosData.forEach(function(item){

            console.log(item.title+'【'+item.id+'】'+item.price+'\n')

        })

    })

}

http.get(url,function(res){

    html="";

    res.on("data",function(data){

        html+=data

    })

    res.on('end',function(){

        var courseData=filterData(html);

        printCourseInfo(courseData)

    })

})

打开CMD，进行node环境，运行js,可以看到已经获取到了数据；

nodeJs爬虫获取数据的更多相关文章

利用Jsoup模拟跳过登录爬虫获取数据
今天在学习爬虫的时候想着学习一下利用jsoup模拟登录.下面分为有验证码和无验证码的情况进行讨论. ---------------------------无验证码的情况---------------- ...
在我的新书里，尝试着用股票案例讲述Python爬虫大数据可视化等知识
我的新书,<基于股票大数据分析的Python入门实战>,预计将于2019年底在清华出版社出版. 如果大家对大数据分析有兴趣,又想学习Python,这本书是一本不错的选择.从知识体系上来看, ...
手把手教你写带登录的NodeJS爬虫+数据展示
其实在早之前,就做过立马理财的销售额统计,只不过是用前端js写的,需要在首页的console调试面板里粘贴一段代码执行,点击这里.主要是通过定时爬取https://www.lmlc.com/s/web ...
nodejs爬虫——汽车之家所有车型数据
应用介绍项目Github地址:https://github.com/iNuanfeng/node-spider/ nodejs爬虫,爬取汽车之家(http://www.autohome.com.cn ...
爬虫 Http请求,urllib2获取数据,第三方库requests获取数据,BeautifulSoup处理数据,使用Chrome浏览器开发者工具显示检查网页源代码,json模块的dumps，loads，dump，load方法介绍
爬虫 Http请求,urllib2获取数据,第三方库requests获取数据,BeautifulSoup处理数据,使用Chrome浏览器开发者工具显示检查网页源代码,json模块的dumps,load ...
Python实现简单的爬虫获取某刀网的更新数据
昨天晚上无聊时,想着练习一下Python所以写了一个小爬虫获取小刀娱乐网里的更新数据 #!/usr/bin/python # coding: utf-8 import urllib.request i ...
nodejs 通过 get获取数据修改redis数据
如下代码是没有报错的正确代码我通过https获取到数据想用redis set一个键值存储现在我掉入了回调陷阱res.on 里面接收到的数据是data 里面如果放入 client.on('conn ...
Java学习-058-Jsoup爬虫获取中国所有的三级行政区划数据（三），处理二级编码缺失
通过查看数据可知,直辖市或者某些三级行政区域没有对应的二级区域,为方便后续的地址使用,可自定义缺失的二级地址. 如下示例自定义的二级行政区域的名称为一级区域的名称,对应的源码如下所示: 将此段源码添加 ...
豆瓣爬虫——通过json接口获取数据
最近在复习resqusts 爬虫模块,就重新写了一个豆瓣爬虫,这个网页从HTML 源码上来看是没有任何我想要的信息的,如下图所示: 这是网页视图,我在源码中查找影片信息,没有任何信息,如图: 由此我判 ...

随机推荐

Oracle定时器执行多线程
what里面加下面代码强制执行多线程 begin execute immediate 'alter session force parallel dml parallel 16'; pkg_s ...
WEB跨域的实现
同源策略/SOP(Same origin policy)是一种约定,它是浏览器最核心也最基本的安全功能,如果缺少了同源策略,浏览器很容易受到XSS.CSFR等攻击(可以参考我的这篇文章). SOP要求 ...
回到顶部js代码
function go_to_top(){ //把内容滚动指定的像素数(第一个参数是向右滚动的像素数,第二个参数是向下滚动的像素数) window.scrollBy(0,-10); //延时递归调用, ...
c/c++基本问题
1. 使用g++将文件编译成库文件 g++ -c -O2 -fPIC test.cpp -o test.o && g++ -shared -Wall -o test.so test.o ...
调试工具-fiddler
本地资源替换线上调试 Fiddler是一个http协议调试代理工具,它能够记录并检查所有你的电脑和互联网之间的http通讯,设置断点,查看所有的“进出”Fiddler的数据(指cookie,html ...
PHPExcel上传sae遇到: -1:fail to get xml content
在用PHPExcel1.8.0来处理excel时,本地测试时好使的,但是要把代码部署到SAE,在上传代码的时候就会遇到这个问题. 部署代码中遇到问题: -1:fail to get xml conte ...
js日期格式化方法 dateFormatFn
var dateFormatFn=function(val,fmt){ var _this = new Date(val); console.log(_this,_this.getFullYear() ...
PHP CURL访问HTTPS使用详解
三年前写过一篇<一个简陋的支持HTTPS的PHP CURL封装函数>,当时只是知其然不知其所以然,今天来详细梳理一下. https服务器post数据代码如下复制代码 function ...
php怎么删除文件
php怎么删除文件删除文件很简单只要使用unlink(文件名)就可以了.
ORM之Dapper操作Sql Server和MySql数据库
1.为什么选择Dapper 1)轻量. 2)速度快.Dapper的速度接近与IDataReader,取列表的数据超过了DataTable. 3)支持多种数据库.Dapper可以在所有Ado.net P ...

nodeJs爬虫获取数据

nodeJs爬虫获取数据的更多相关文章

随机推荐

热门专题