nodejs写的一个网页爬虫例子（坏链率）

因为工作需要，用nodejs写了个简单的爬虫例子，之前也没用过nodejs，连搭环境加写大概用了5天左右，so。。。要多简陋有多简陋，放这里给以后的自己看~~

整体需求是：给一个有效的URL地址，返回该网页上所有无效链接的百分比（坏链率）

第一个文件：计算环链率 urlSpider.js

 /*================================================

 @author MissUU

 链接抓取思路：

 1. 获取页面内容

 2. 正则取得所有<a>

 3. 进一步取得href属性值，如果首位是“则剔除，不是http开头加上域名（javascript开头除外）

 4.正则验证是否是常见URL格式

 ================================================*/

 var http = require('http');

 var async = require('async');

 var dbHandle = require('./dbHandle.js');

 //主程序

 var runUrlSpider = function(obj, callback){

     //10s timeout

     var request_timer = setTimeout(function() {

                         req.abort();

                         console.log('Request Timeout.');

                         }, 10000);

     var urlBadLink = new UrlBadLink();

     var html='';

     var req = http.get(obj.url, function(res) {

         clearTimeout(request_timer);

         res.setEncoding('utf8');

         res.on('data', function (chunk) {

         html += chunk;

         }).on('end', function(){

            console.log('*******开始提取有效链接地址******');

            console.log(new Date().toLocaleString());

            console.log(obj.url);

            urlBadLink.host = obj.url;

            urlBadLink.id = obj.id;

            matchURL(html, urlBadLink, function(){

                callback();

            });

            });

      });

      req.on('error', function(e) {

          console.log('problem with request: ' + e.message);

          callback();

      });

 }

 //this is the entrance of code

 var main = function(){

      var urlArray = dbHandle.showUrls(1, function(result){

      async.eachSeries(result, runUrlSpider, function(err){

          console.log('******this is the end, haha*******');

     });

    });

   //  console.log(urlArray);

 };

 main();

 /*

 * 用于异步放送get请求

 *

 * @param {string} content 原始页面信息

 * @param {string} host 主域名

 */

 function matchURL(content, urlBadLink, callend){

    var host = urlBadLink.host;

    var anchor = /<a\s[^>]*>/g;

    var matches = content.match(anchor);

    var badLink = 0;

    var flag = 0;

    var HttpGet = function(url,callback){

         //10s timeout

        var request_timer = setTimeout(function() {

                            req.abort();

                            console.log('Request Timeout.');

                            }, 10000);

        var req = http.get(url, function(res) {

             clearTimeout(request_timer);

             res.on('data', function () {

             }).on('end', function(){

                console.log(++flag + ": " + url + ' response status: ' + res.statusCode);

                if(!(res.statusCode >= 200 && res.statusCode < 400)){

                console.log('-----------------------');

                badLink++;

                }

                callback();

               });

              });

             req.on('error', function(err){

                console.log(++flag + ": " + 'problem with request: ' + err.message);

                badLink++;

                callback();

            });

       };

    var urls = filterUrl(matches,host);

    if(urls !== null){

       var totalLink = urls.length;

    //console.log(urls);

       async.eachSeries(urls, HttpGet, function(err){

      // var urlBadLink = new UrlBadLink(host,totalLink, badLink);

      // console.log("坏链个数为: " + urlBadLink.badCounts);

      // console.log("坏链率为: " + urlBadLink.getRate());

            urlBadLink.total = totalLink;

            urlBadLink.badCounts = badLink;

       //data store puts here

            dbHandle.updateBadLink(urlBadLink);

            callend();

    });

   }else{

         console.log('no links found');

         urlBadLink.total = 10;

         urlBadLink.badCounts = 0;

         dbHandle.updateBadLink(urlBadLink);

         callend();

   }

 }

 //正则取得href属性值

 function URLFommat(strUrl,host){

    var urlPatten = /href=[\'\"]?([^\'\"]*)[\'\"]?/i;

    var temp = urlPatten.exec(strUrl);

    if(temp!= null){

    var url = temp[0].substring(6,temp[0].length-1).trim();

       if(url.indexOf("\"") != -1){

          url = url.slice(url.indexOf("\"") + 1);

       }

       if(url.charAt(0) == "/"){

          url = url.slice(1);

          return host + url;

       }else if((url.indexOf("http") == -1)&&

           (url.indexOf("javascript") == -1)){

          return host + url;

           }else

               return url;

    }else

      return null;

 }

  //test URLFommat

  //var test = "http://baidu.com";

 // var test1 = " \"http://baidu.com";

  //var test2 = "/wenhao";

 //console.log(URLFommat(test,"www.sina.com.cn"));

  //console.log(URLFommat(test1,"www.sina.com.cn"));

  //console.log(URLFommat(test2,"www.sina.com.cn"));

 //测试是否为常见url格式

 function IsURL(strUrl) {

    if(strUrl != null){

     var regular = /^\b(((http?|ftp):\/\/)?[-a-z0-9]+(\.[-a-z0-9]+)*\.(?:com|edu|gov|int|mil|net|org|biz|info|name|museum|asia|coop|aero|[a-z][a-z]|((25[0-5])|(2[0-4]\d)|(1\d\d)|([1-9]\d)|\d))\b(\/[-a-z0-9_:\@&?=+,.!\/~%\$]*)?)$/i;

     if (regular.test(strUrl)) {

         return true;

     }

     else {

         return false;

     }

    }else

         return false;

 }

 //对象

 function UrlBadLink(id, host, total, badCounts){

     this.id = id;

     this.host = host;

     this.total = total;

     this.badCounts = badCounts;

     if(typeof this.getRate != "function"){

        UrlBadLink.prototype.getRate = function(){

          var output = Number(Math.round(this.badCounts/this.total*10000)/100).toFixed(2)+'%';

          return output;

        };

     }

 }

 function filterUrl(arr,host){

      if(arr === null)

         return null;

      var output = [];

      arr.forEach(function(item,index,array){

        //console.log(item);

        var formatURL = URLFommat(item,host);

        if(IsURL(formatURL)){

         output.push(formatURL);

         }//if

      });//forEach

      return output;

 }

第二个文件：将数据存库，dbHandle.js

/**

 * @author MissUU

 * @des MySql基本操作

 * API:     https://github.com/felixge/node-mysql

 */  

var mysql = require('mysql');  

mysql.createConnection('mysql://root:apple@localhost/test?debug=false');  

var pool  = mysql.createPool({

  host     : '10.102.1.00',

  user     : 'root',

  password : 'root',

  database : 'test',

  connectionLimit: 15

});  

//读取urls

exports.showUrls = function (groupId, callback){

  console.log('this is showUrl()');

  pool.getConnection(function(err, conn){

      if (err) {

        console.log("connection error!");

        console.log(err);

      }

      conn.query('SELECT id,realurl as url FROM t_site WHERE siteGroupId = ?',groupId, function(err, result){

          if(err){

             console.log(err.message);

          }

          conn.release();

          if(result.length){

            // console.log(result instanceof Array);

              callback(result);

              return true;

          }else{

             callback('');

             return false;

          }

      });

  });

}; 

exports.updateBadLink = function (urlBadLink){

  //若不含数据则不插入

  if (!!urlBadLink) {

     pool.getConnection(function(err, conn){

     if (err) {

        console.log("connection error!");

        console.log(err);

      }

      var updateSql = "UPDATE a_qualityinfo SET brokenRate = '"+ urlBadLink.getRate() +"' WHERE siteId = " + urlBadLink.id;

      console.log(updateSql);

      conn.query(updateSql, function(err, result){

          if(err){

             console.log(err.message);

             console.log('update fail');

          }

          conn.release();

          console.log('update success');

      });// conn.query

     });//pool.getConnection

  }

};

代码后期还会改动，这里有几点需要注意的：

1、http.get有时会一直等待响应，所以一定要判断下，超时则认为出错，要不程序就卡住了。。。= =！

2、注意callback的使用，要不然很难规范执行顺序的，用过nodejs的都懂得。。。

nodejs写的一个网页爬虫例子（坏链率）的更多相关文章

用go iris 写的一个网页版文件共享应用（webapp）
主要演示文件拖拽上传或点击上传到不同的目录中,提供下载和删除功能. 目录结构: -main.go --share(用于分类存放上传文件的目录) --v(视图目录) ---share.html main ...
用Python写一个小爬虫吧！
学习了一段时间的web前端,感觉有点看不清前进的方向,于是就写了一个小爬虫,爬了51job上前端相关的岗位,看看招聘方对技术方面的需求,再有针对性的学习. 我在此之前接触过Python,也写过一些小脚 ...
Jmeter_ForEach控制器实现网页爬虫
一直以来,爬虫似乎都是写代码去实现的,今天像大家介绍一下Jmeter如何实现一个网页爬虫! Jmeter的爬虫原理其实很简单,就是对网页提交一个请求,然后把返回的所有href提取出来,利用ForEac ...
Jmeter(十九)_ForEach控制器实现网页爬虫
一直以来,爬虫似乎都是写代码去实现的,今天像大家介绍一下Jmeter如何实现一个网页爬虫! 龙渊阁测试开发家园 317765580 Jmeter的爬虫原理其实很简单,就是对网页提交一个请求,然后把返回 ...
c#网页爬虫初探
一个简单的网页爬虫例子! html代码: <head runat="server"> <title>c#爬网</title> </head ...
网页爬虫的设计与实现（Java版）
网页爬虫的设计与实现(Java版) 最近为了练手而且对网页爬虫也挺感兴趣,决定自己写一个网页爬虫程序. 首先看看爬虫都应该有哪些功能. 内容来自(http://www.ibm.com/deve ...
网页抓取：PHP实现网页爬虫方式小结
来源:http://www.ido321.com/1158.html 抓取某一个网页中的内容,需要对DOM树进行解析,找到指定节点后,再抓取我们需要的内容,过程有点繁琐.LZ总结了几种常用的.易于实现 ...
Python网页爬虫（一）
很多时候我们想要获得网站的数据,但是网站并没有提供相应的API调用,这时候应该怎么办呢?还有的时候我们需要模拟人的一些行为,例如点击网页上的按钮等,又有什么好的解决方法吗?这些正是python和网页爬 ...
PHP实现网页爬虫
抓取某一个网页中的内容,需要对DOM树进行解析,找到指定节点后,再抓取我们需要的内容,过程有点繁琐.LZ总结了几种常用的.易于实现的网页抓取方式,如果熟悉JQuery选择器,这几种框架会相当简单. 一 ...

随机推荐

PROPAGATION_REQUIRED事务管理
转载:http://blog.csdn.net/l345480242/article/details/7588393 采用编程式事务 1. getCurrentSession()与openSessio ...
使用PowerDesigner进行数据库建模入门
阅读目录两种重要模型创建表和主外键创建视图和存储过程生成数据库 PowerDesigner(简称PD)是一种强大的数据库建模工具,使用PD可以创建业务模型,UML类图等,当然最主要的功能是数据 ...
java：继承
一.继承: java只支持单继承,一个子类只能继承一个父类,使用继承是为了减少类的重复代码,且父类的构造函数不能被子类继承. 当两个类里面有相同的属性或方法,就应该考虑使用继承解决重复代码了. 继承的 ...
C++：常类型Const
常类型:使用类型修饰符const说明的类型,常类型的变量或对象成员的值在程序运行期间是不可改变的. 3.10.1 常引用如果在说明引用时用const修饰,则被说明的引用为常引用.如果用常引用做形参, ...
Github欢乐多 PHP神级代码引发吐槽热
前日,github的PHP板块惊现一段能够提升70%运行效率的代码,引发了全世界众多网友的吐槽和调侃,“awesome!”.“well done!”.“PHP是世界第一语言!”平时不苟言笑,埋头苦干的 ...
进程间通信机制<转>
1 文件映射文件映射(Memory-Mapped Files)能使进程把文件内容当作进程地址区间一块内存那样来对待.因此,进程不必使用文件I/O操作,只需简单的指针操作就可读取和修改文件的内容. ...
[LeetCode#267] Palindrome Permutation II
Problem: Given a string s, return all the palindromic permutations (without duplicates) of it. Retur ...
iOS开发：插件记录
进入沙盒的插件 https://github.com/TongeJie/ZLGotoSandboxPlugin 图片提示的插件 https://github.com/ksuther/KSImageNa ...
EF之MSSQL分布式部署一：EFContext自定义数据库链接
不废话,上代码: 来源:http://bbs.csdn.net/topics/390823046 原文地址:EF之MSSQL分布式部署一:EFContext自定义数据库链接 /// <sum ...
UVa 11774 (置换找规律) Doom's Day
我看大多数人的博客只说了一句:找规律得答案为(n + m) / gcd(n, m) 不过神题的题解还须神人写.. We can associate at each cell a base 3-numb ...

nodejs写的一个网页爬虫例子（坏链率）

nodejs写的一个网页爬虫例子（坏链率）的更多相关文章

随机推荐

热门专题