抓取目标:就是我自己的博客:http://www.cnblogs.com/ghostwu/

需要实现的功能:

抓取博客所有的文章标题,超链接,文章摘要,发布时间

需要用到的库:

node.js自带的http库

第三方库:cheerio,这个库就是用来处理dom节点的,他的用法几乎跟jquery用法一模一样,所以有了这个利器,写一个爬虫就非常简单

准备工作:

1,npm init --yes 初始化package.json

2,安装cheerio:npm install cheerio --save-dev

实现的目标,是要把每篇文章需要抓取的部分( 抓取文章标题,超链接,文章摘要,发布时间 )整理成一个对象, 放在数组中,如:

  1. [ { title: '[置顶][js高手之路]从零开始打造一个javascript开源框架gdom与插件开发免费视频教程
  2. 连载中',
  3. url: 'http://www.cnblogs.com/ghostwu/p/7470038.html',
  4. entry: '摘要: 百度网盘下载地址:https://pan.baidu.com/s/1kULNXOF 优酷土豆观看地址:htt
  5. p://v.youku.com/v_show/id_XMzAwNTY2MTE0MA==.html?spm=a2h0j.8191423.playlist_content.5!3~5~
  6. 5~A&&f',
  7. listTime: '2017-09-05 17:08' },
  8. { title: '[js高手之路]Vue2.0基于vue-cli+webpack Vuex用法详解',
  9. url: 'http://www.cnblogs.com/ghostwu/p/7521097.html',
  10. entry: '摘要: 在这之前,我已经分享过组件与组件的通信机制以及父子组件之间的通信机制,而
  11. 我们的vuex就是为了解决组件通信问题的 vuex是什么东东呢? 组件通信的本质其实就是在组件之间传
  12. 递数据或组件的状态(这里将数据和状态统称为状态),但可以看到如果我们通过最基本的方式来进行
  13. 通信,一旦需要管理的状态多了,代码就会',
  14. listTime: '2017-09-14 15:51' },
  15. { title: '[js高手之路]Vue2.0基于vue-cli+webpack同级组件之间的通信教程',
  16. url: 'http://www.cnblogs.com/ghostwu/p/7518158.html',
  17. entry: '摘要: 我们接着上文继续,本文我们讲解兄弟组件的通信,项目结构还是跟上文一样. 在
  18. src/assets目录下建立文件EventHandler.js,该文件的作用在于给同级组件之间传递事件 EventHandl
  19. er.js代码: 2,在Components目录下新建一个组件Brother1.vue 。通过Eve',
  20. listTime: '2017-09-13 22:49' },
  21. ]

思路讲解:

1,获取目标地址:http://www.cnblogs.com/ghostwu/ 所有的html内容

2,提取所有的文章html内容

3,提取每篇文章下面对应的( 文章标题,超链接,文章摘要,发布时间 )

  1. var http = require('http');
  2. var cheerio = require('cheerio');
  3.  
  4. var url = 'http://www.cnblogs.com/ghostwu/';
  5.  
  6. function filterHtml(html) {
  7. var $ = cheerio.load(html);
  8. var arcList = [];
  9. var aPost = $("#content").find(".post-list-item");
  10. aPost.each(function () {
  11. var ele = $(this);
  12. var title = ele.find("h2 a").text();
  13. var url = ele.find("h2 a").attr("href");
  14. ele.find(".c_b_p_desc a").remove();
  15. var entry = ele.find(".c_b_p_desc").text();
  16. ele.find("small a").remove();
  17. var listTime = ele.find("small").text();
  18. var re = /\d{4}-\d{2}-\d{2}\s*\d{2}[:]\d{2}/;
  19. listTime = listTime.match( re )[0];
  20. arcList.push({
  21. title: title,
  22. url: url,
  23. entry: entry,
  24. listTime: listTime
  25. });
  26. });
  27. return arcList;
  28. }
  29.  
  30. http.get(url, function (res) {
  31. var html = '';
  32. var arcList = [];
  33. // var arcInfo = {};
  34. res.on('data', function (chunk) {
  35. html += chunk;
  36. });
  37. res.on('end', function () {
  38. arcList = filterHtml( html );
  39. console.log( arcList );
  40. });
  41. });

有几个关键的地方要讲解下:

1,res.on( 'data', function(){} )

http模块发送get请求之后,就会源源不断的抓取目标网页的源代码内容, 所以,我在on中监听data事件, chunk就是传输的数据,把这些数据累加到html这个变量, 当数据传输完之后就会触发end事件,你可以在end事件中打印一下console.log( html ) 就能发现,他就是目标地址的所有html源代码,这样就解决了我们的第一个问题:获取目标地址:http://www.cnblogs.com/ghostwu/ 所有的html内容

2,有了完整的html内容之后,接下来我封装了一个函数filterHTML用来过滤我所需要的结果( 每篇文章的信息 )

3,var $ = cheerio.load(html); 把html内容通过cheerio的load方法加载进来,就可以用cheerio的节点操作了,为了亲和jquery的操作,我用美元符号$保存了这个文档对象

4,var aPost = $("#content").find(".post-list-item"); 这个是所有的文章节点信息,拿到之后,通过each方法 挨个遍历并抓取需要的信息,整理成对象,然后放在一个数组中

  1. arcList.push({
  2. 21 title: title,
  3. 22 url: url,
  4. 23 entry: entry,
  5. 24 listTime: listTime
  6. 25 });

这样就处理完了,结果已经在上面展示了,如果博客样式跟我的博客样式一样,应该都能抓取了,

接着完善分页抓取,这样就能把整个博客爬下来了

  1. var http = require('http');
  2. var cheerio = require('cheerio');
  3.  
  4. var url = 'http://www.cnblogs.com/ghostwu/';
  5.  
  6. function filterHtml(html) {
  7. var $ = cheerio.load(html);
  8. var arcList = [];
  9. var aPost = $("#content").find(".post-list-item");
  10. aPost.each(function () {
  11. var ele = $(this);
  12. var title = ele.find("h2 a").text();
  13. var url = ele.find("h2 a").attr("href");
  14. ele.find(".c_b_p_desc a").remove();
  15. var entry = ele.find(".c_b_p_desc").text();
  16. ele.find("small a").remove();
  17. var listTime = ele.find("small").text();
  18. var re = /\d{4}-\d{2}-\d{2}\s*\d{2}[:]\d{2}/;
  19. listTime = listTime.match(re)[0];
  20. arcList.push({
  21. title: title,
  22. url: url,
  23. entry: entry,
  24. listTime: listTime
  25. });
  26. });
  27. return arcList;
  28. }
  29.  
  30. function nextPage( html ){
  31. var $ = cheerio.load(html);
  32. var nextUrl = $("#pager a:last-child").attr('href');
  33. if ( !nextUrl ) return ;
  34. var curPage = $("#pager .current").text();
  35. if( !curPage ) curPage = 1;
  36. var nextPage = nextUrl.substring( nextUrl.indexOf( '=' ) + 1 );
  37. if ( curPage < nextPage ) crawler( nextUrl );
  38. }
  39.  
  40. function crawler(url) {
  41. http.get(url, function (res) {
  42. var html = '';
  43. var arcList = [];
  44. res.on('data', function (chunk) {
  45. html += chunk;
  46. });
  47. res.on('end', function () {
  48. arcList = filterHtml(html);
  49. console.log( arcList );
  50. nextPage( html );
  51. });
  52. });
  53. }
  54. crawler( url );

[js高手之路]Node.js实现简易的爬虫-抓取博客文章列表信息的更多相关文章

  1. [js高手之路]Node.js实现简易的爬虫-抓取博客所有文章列表信息

    抓取目标:就是我自己的博客:http://www.cnblogs.com/ghostwu/ 需要实现的功能: 抓取博客所有的文章标题,超链接,文章摘要,发布时间 需要用到的库: node.js自带的h ...

  2. [js高手之路]Node.js+jade抓取博客所有文章生成静态html文件

    这个周末,恶补了一下jade模板引擎,就为生成静态html文件,这篇文章需要知道jade以及看过我的上篇文章,我先给出他们的参考链接: [js高手之路]Node.js模板引擎教程-jade速学与实战1 ...

  3. [js高手之路]Node.js+jade+mongoose实战todolist(分页,ajax编辑,删除)

    该系列文章索引: [js高手之路]node js系列课程-创建简易web服务器与文件读写 [js高手之路]node js系列课程-图解express+supervisor+ejs用法 [js高手之路] ...

  4. [js高手之路]Node.js+jade+mongodb+mongoose实现爬虫分离入库与生成静态文件

    接着这篇文章[js高手之路]Node.js+jade抓取博客所有文章生成静态html文件继续,在这篇文章中实现了采集与静态文件的生成,在实际的采集项目中, 应该是先入库再选择性的生成静态文件.那么我选 ...

  5. [js高手之路]Node.js+jade+express+mongodb+mongoose+promise实现todolist

    promise主要是用来解决异步回调问题,其实还有好几种比promise更好的方案,后面再说,这节,我们先用promise来改造下,我以前写的一篇文章[js高手之路]javascript腾讯面试题学习 ...

  6. [js高手之路]node js系列课程-创建简易web服务器与文件读写

    web服务器至少有以下几个特点: 1.24小时不停止的工作,也就是说这个进程要常驻在内存中 2.24小时在某一端口监听,如: http://localhost:8080, www服务器默认端口80 3 ...

  7. [js高手之路]node js系列课程-图解express+supervisor+ejs用法

    上文通过node js自带的http模块搭建了一个简易的服务器,实际在开发中,一般用的是express框架,本文我们就来讲讲项目开发中必备不可少的几样东西: 服务器( express ) 路由( ex ...

  8. [js高手之路]Node.js模板引擎教程-jade速学与实战2-流程控制,转义与非转义

    一.转义与非转义 jade模板文件代码: doctype html html head meta(charset='utf-8') title jade学习-by ghostwu body h3 转义 ...

  9. [js高手之路]Node.js模板引擎教程-jade速学与实战4-模板引用,继承,插件使用

    一.block 模块复用 把需要复用的模块用block定义 block后面跟上模块的名字,引用一次block 内容就会被复用一次 编译之后的结果: 二,继承模板(extends) 在实际开发中,网站的 ...

随机推荐

  1. Python优缺点

    优点 简单----Python是一种代表简单主义思想的语言.阅读一个良好的Python程序就感觉像是在读英语一样,尽管这个英语的要求非常严格!Python的这种伪代码本质是它最大的优点之一.它使你能够 ...

  2. 阿里云ECS主机自定义进程监控

    由于业务的关系我们用的是阿里云的ECS主机,需要对业务进程需要监控,查看后发现阿里云提供自定义监控SDK,这有助于我们定制化的根据自身业务来做监控,下面我就根据业务需求来介绍一个简单的自定义监控配置 ...

  3. geotrellis使用(三十)使用geotrellis读取PostGIS空间数据

    前言 最近事情很多,各种你想不到的事情--such as singing and dancing--再加上最近又研究docker上瘾,所以geotrellis看上去似乎没有关注,其实我一直在脑中思考着 ...

  4. 【我的漫漫跨考路】有生之年·调完了BUG--冒泡排序C++版本

    正文之前 今天去牛客网试了试一些实战编程题,感觉贼有意思,但是也很难,挑了个成绩排序的算法题我就开始怼! 对我一个编程经验并不是很丰富的人来说,确实算是个挑战了. 所以我满满当当的搞了四个小时多,才算 ...

  5. LR的响应时间与使用IE所感受时间不一致的讨论

    在做性能测试时,有时碰到这样一种情况,使用性能工具LR测试出来的响应时间比实际使用IE感受到的时间要长,例如,实际使用IE打开一个系统时只需要1~2秒,而使用LR跑一个用户所得出的结果可能是8秒.10 ...

  6. [js高手之路] vue系列教程 - 实现留言板todolist(3)

    通过前面两篇文章的的学习,我们掌握了vue的基本用法. 本文,就利用这些基础知识来实现一个留言板, 老外把他称之为todolist. 第一步.使用bootstrap做好布局 <!DOCTYPE ...

  7. instanceof问题

    java 中的instanceof 运算符是用来在运行时指出对象是否是特定类的一个实例.instanceof通过返回一个布尔值来指出,这个对象是否是这个特定类或者是它的子类的一个实例. 用法:resu ...

  8. 关于Uncaught SyntaxError: Unexpected token o in JSON at position 1,chrome持续报错的相关解析

    今天跟大家分享我前两天遇见的一个BUG,说出来很难受,因为这个BUG花了我一个多小时去找原因,后来莫名其妙的故障消失了,强迫症犯了的我,居然花了2个多小时去故意再制造这个BUG,只想弄明白WHY??? ...

  9. 在使用pydelicious时出现HTTP Error 500: Internal Server Error的错误的解决方法:

    问题:在学习<集体智慧编程>的过程中,第二章中如果你遇到了pydelicious.PyDeliciousException: HTTP Error 500: Internal Server ...

  10. JS中的函数、BOM和DOM操作

     一.JS中的函数 [关于注释] /** [文档注释]:开头两个*.写在函数上方,在调用函数时可以看到文档上方的描述信息. */   // 单行注释 /* 多行注释 */ 1.函数的声明及调用 (1) ...