本课程用nodejs写一个http小爬虫,首先科普一下,爬虫就是把网上的网页代码给弄下来,然后纳为己用。目前最大的爬虫:百度快照等的。

下面直接上代码

示例一:


  1. var http = require('http');
  2. var url = "http://www.imooc.com/learn/348";
  3. http.get(url, function(res) {
  4. var html = '';  //http get去请求url ,url是慕课网
  5. res.on('data', function(data) {
  6. html += data; //请求数据赋值给前面定义的html
  7. });
  8. res.on('end', function() {
  9. console.log(html); //结束后打印出html
  10. });
  11. }).on('error', function() {
  12. conslole.log('请求出错');//出错打印
  13. });
  14.  

保存imooc-crawler.js,然后运行:node imooc-crawler.js , 注意路径。

文件下载 imooc-crawler.js右击另存

最后结果可是打印了满满的窗口啊,就不上图了。

示例二:

首先要安装一下小插件,cheerio , 该插件就是node里面的jquery,api地址点击这里http://www.imlwj.com/blog/?p=39

安装cheerio,在控制台输入命令:npm install cheerio  等待一会儿。

首先来看看http://www.imooc.com/learn/348的dom结构

var http = require('http');
var cheerio=require('cheerio');//引用安装成功的cheerio
var url = "http://www.imooc.com/learn/348";

//过滤方法


  1. function filterChapters(html){
  2. var $=cheerio.load(html);
  3. var chapters=$('.learnchapter');//和jquery 里面的方法一样,直接得到目录块,通过learnchapter类获取
  4. // [{
  5. // chapterTitle:'',
  6. // videos:[
  7. // title:'',
  8. // id:''
  9. // ]
  10. // }]
  11. var courseData=[];//定义一个数组,用来存储一级目录标题和二级目录标题以及二级目录的id
  12. chapters.each(function(item){
  13. var chapter=$(this);
  14. var chapterTitle=chapter.find('strong').text();//一级目录表示是放在一个strong标签里面的,所以轻易的就可以拿到
  15. var videos=chapter.find('.video').children('li');//拿到二级目录块
  16. var chapterData={//一级目录里面包括它本身的标题,还包括二级目录的标题和二级目录id,所以二级目录也定义成数组
  17. chapterTitle:chapterTitle,
  18. videos:[]
  19. };
  20. videos.each(function(item){
  21. var video=$(this).find('.studyvideo');//获取二级目录标题所在的a标签
  22. var videoTitle=video.text();//得到二级目录标题
  23. var id=video.attr('href').split('video/')[1];//获取a标签的href属性值,然后进行分割,获取id值,以‘' video/ ’分割,取第二部分,数组的下标是从0开始,所以是[1]
  24. chapterData.videos.push({//数组push值,加入二级标题,二级id
  25. title:videoTitle,
  26. id:id
  27. });
  28. });
  29. courseData.push(chapterData);//对我们需要的内容数组push值
  30. });
  31. return courseData;//把过滤结果返回
  32. }
  33. function printCourseInfo(courseData){
  34. courseData.forEach(function(item){//遍历数组
  35. var chapterTitle=item.chapterTitle;//获取一级标题
  36. console.log(chapterTitle+'\n');//打印一级标题
  37. item.videos.forEach(function(video){ //二级目录也是数组,同样要遍历
  38. console.log(' ['+video.id+'] '+video.title+'\n');//打印二级标题和id
  39. });
  40. });
  41. }
  42. http.get(url, function(res) {
  43. var html = '';
  44. res.on('data', function(data) {
  45. html += data;
  46. });
  47. res.on('end', function() {
  48. var courseData=filterChapters(html);//对示例一的html进行过滤,过滤出我们需要的内容
  49. printCourseInfo(courseData);//打印出过滤后的内容
  50. });
  51. }).on('error', function() {
  52. console.log('请求出错');
  53. });
  54.  

保存crawler.js,然后运行:node crawler.js , 注意路径。

文件下载 crawler.js右击另存

下图是打印结果

视频是慕课网:http://www.imooc.com/learn/348

个人总结:本课程的主要还是在于对jquery的学习,这里也就是对cheerio的学习,能够熟练的操作dom,其他都没有啥问题了。

cheerio学习地址http://www.imlwj.com/blog/?p=39

转载本站文章请注明出处:爱开发 http://www.imlwj.com/blog/?p=41

nodejs http小爬虫的更多相关文章

  1. NodeJs编写小爬虫

    一,爬虫及Robots协议 爬虫,是一种自动获取网页内容的程序.是搜索引擎的重要组成部分,因此搜索引擎优化很大程度上就是针对爬虫而做出的优化. robots.txt是一个文本文件,robots是一个协 ...

  2. nodejs .http模块, cheerio模块 实现 小爬虫.

    代码: var http = require("http"); var cheerio = require("cheerio"); var url = 'htt ...

  3. nodejs的简单爬虫

    闲聊       好久没写博客了,前几天小颖在朋友的博客里看到了用nodejs的简单爬虫.所以小颖就自己试着做了个爬博客园数据的demo.嘻嘻......      小颖最近养了条泰日天,自从养了我家 ...

  4. node.js 开发简易的小爬虫

    node.js  开发简易的小爬虫 最近公司开发一款医药类的软件,所以需要一些药品的基础数据,所以本人就用node.js写一个简易的小爬虫,并写记录这个Demo以供大家参考. 一.开发前的准备: 1, ...

  5. 一次使用NodeJS实现网页爬虫记

    前言 几个月之前,有同事找我要PHP CI框架写的OA系统.他跟我说,他需要学习PHP CI框架,我建议他学习大牛写的国产优秀框架QeePHP. 我上QeePHP官网,发现官方网站打不开了,GOOGL ...

  6. Java豆瓣电影爬虫——小爬虫成长记(附源码)

    以前也用过爬虫,比如使用nutch爬取指定种子,基于爬到的数据做搜索,还大致看过一些源码.当然,nutch对于爬虫考虑的是十分全面和细致的.每当看到屏幕上唰唰过去的爬取到的网页信息以及处理信息的时候, ...

  7. 放养的小爬虫--豆瓣电影入门级爬虫(mongodb使用教程~)

    放养的小爬虫--豆瓣电影入门级爬虫(mongodb使用教程~) 笔者声明:只用于学习交流,不用于其他途径.源代码已上传github.githu地址:https://github.com/Erma-Wa ...

  8. 放养的小爬虫--京东定向爬虫(AJAX获取价格数据)

    放养的小爬虫--京东定向爬虫(AJAX获取价格数据) 笔者声明:只用于学习交流,不用于其他途径.源代码已上传github.githu地址:https://github.com/Erma-Wang/Sp ...

  9. Python练习,网络小爬虫(初级)

    最近还在看Python版的rcnn代码,附带练习Python编程写一个小的网络爬虫程序. 抓取网页的过程其实和读者平时使用IE浏览器浏览网页的道理是一样的.比如说你在浏览器的地址栏中输入    www ...

随机推荐

  1. 读书笔记:《HTML5开发手册》-- 现存元素的变化

    继续学习HTML5语义化的内容,今天主要介绍一下,HTML5之前的元素经HTML5规范后的语义及一些使用示例. 一.cite HTML5对cite元素的定义进行了很大的修改,在HTML4中,cite元 ...

  2. Android中Handler的消息处理机制以及源码分析

    在实际项目当中,一个很常见的需求场景就是在根据子线程当中的数据去更新ui.我们知道,android中ui是单线程模型的,就是只能在UI线程(也称为主线程)中更新ui.而一些耗时操作,比如数据库,网络请 ...

  3. ASP.NET Core学习之二 菜鸟踩坑

    对于像我这样没接触过core的人,坑还是比较多的,一些基础配置和以前差别很大,这里做下记录 一.Startup 1.注册服务 // This method gets called by the run ...

  4. java基础day02

    变量命名: 1.1)只能包含字母.数字._和$符,并且不能以数字开头 1.2)严格区分大小写 1.3)不能使用关键字 变量初始化:1)声明的同时初始化:2)先声明后初始化.基本数据类型0.byte: ...

  5. Hibernate学习笔记(3)---hibernate关联关系映射

    一对一关联 假设有两个持久化类(实体类)User与Address,它们之间存在一对一的关系 1,通过主键关联(个人偏向另外一种) User.hbm.xml文件配置 <id name=" ...

  6. checkbox 全选或取消

    Html: 点击label 也能 check <div class="checkbox">                        <input class ...

  7. android官网文档学习笔记

    1.android的四大组件的了大概功能 activity:负责显示界面,和用户交互. service:运行在后台. content provider:为程序app之间的数据访问提供接口. broad ...

  8. JDBC详解系列(四)之建立Stament和执行SQL语句

    建立Stament   在获得连接之后,我们就可以跟数据库进行交互了.   在JDBC中,我们发送SQL语句到数据库这些操作时通过Stament,Preparement,CallableStateme ...

  9. zz:linux下rz,sz的安装方法

    zz:http://xukaizijian.blog.163.com/blog/static/1704331192011611104631875/ wget http://ohse.de/uwe/re ...

  10. Redis随笔(一)Linux Redis 搭建

    1.到官网下载redis上传服务器或者使用wget 下载 wget redis下载的路径 2.查看linux是否安装编译环境gcc,没有先安装 yum -y install gcc 3.解压redis ...