NODE学习:利用nodeJS去抓网页的信息

1：引用模块"http" (执行命令node app.js "http://www.baidu.com")

//app.js
var http = require('http');

var url = require('url');

function spider(u,cb){

    http.get( url.parse(u), function(res){

        var d = ''

        res.on('data',function(chunk){

            d += chunk;

        })

        res.on('end',function(){

            console.log('spider_end && do cb');

            cb(d);

        })

    });

};

var u = "";

if( require.main === module ) {

    u = process.argv[2]

};

spider(u,function( data ){
　　//这个返回的是网页内容的信息;

    console.log( data );

});

2：引用模块nodegrass： (执行命令node app.js "http://www.baidu.com")

//app.js
var url = "http://www.cnblogs.com/xiaochao12345/archive/2014/10/23/4044950.html";

var ng = require('nodegrass');

if(require.main === module) {

    console.log( process.argv );

    url = process.argv[2];

}

ng.get(url,function(data){

　　//这个返回的是网页内容的信息;

console.log(data); },'utf8');

3：引用模块superagent： (执行命令node app.js "http://www.baidu.com")

//app.js
var url = "http://www.cnblogs.com/xiaochao12345/archive/2014/10/23/4044950.html";

var superagent = require("superagent");

if(require.main === module) {

    console.log( process.argv );

    url = process.argv[2];

};

superagent.get(url)

    .end(function (err, res) {

        console.log('fetch  successful');

        console.log(res);

    });

4:使用curl模块：(执行命令node app.js "http://www.baidu.com")

//app.js
var curl = require("curl");

var u = "";

if( require.main === module ) {

    u = process.argv[2]

};

curl.get(u,function( data ){

    console.log( arguments );

});

______________________________________________________________________________________________________________

NODEJS中处理dom节点的方式(接口都和jq是统一的);

1:引用cheerio

var cheerio = require("cheerio");

var html = "<html><body><div id=\"div1\">text</div></body></html>";

var $ = cheerio.load(html);

console.log( "html" );

console.log( $.html() );

console.log( "#div1————〉html" );

console.log( $("#div1").html() );

console.log( "#div1----〉text" );

console.log( $("#div1").text() );

2:引用jquery

var $ = require("jquery");

var $dom = $("<html><body><div id=\"div1\">text</div></body></html>");

console.log( $dom.find("#div1").text() );

3:引用jsdom

var jsdom = require('jsdom');

var curl = require("curl");

var u = "https://github.com";

if( require.main === module ) {

    u = process.argv[2];

};

curl.get(u,function( arg0 , html ){

     //jsdom相当于打开了一个页面，在这个页面里面运行js;

    var document = jsdom.jsdom( html.body );

    for(var a in html)

        console.log(a);

    var window = document.createWindow();

    var script = document.createElement('script');

    //script.src = 'http://code.jquery.com/jquery-1.4.2.js';

    script.src = "http://127.0.0.1:81/js/jquery.min.js";

    script.onload = function(){

        console.log(1);

        console.log( window.jQuery("body").text() );

    };

    document.head.appendChild( script );

});

_________________________________________________________________________________________________________________

文件保存的话直接用nodeJS中的fs模块:

var fs = require("fs");

fs.appendFile('file-name', "text_text_text_text" ,function(err){

    if(err)throw err;

    console.log('done')

});

NODE学习:利用nodeJS去抓网页的信息的更多相关文章

NodeJS + PhantomJS 抓取页面信息以及截图
利用PhantomJS做网页截图经济适用,但其API较少,做其他功能就比较吃力了.例如,其自带的Web Server Mongoose最高只能同时支持10个请求,指望他能独立成为一个服务是不怎么实际的 ...
Nodejs全站开发学习系列 & 深入浅出Node学习笔记 & Spider抓取
https://course.tianmaying.com/node 这个系列的文章看起来很不错,值得学习一下. /Users/baidu/Documents/Data/Interview/Web-S ...
(转)利用Beautiful Soup去抓取p标签下class=jstest的内容
1.利用Beautiful Soup去抓取p标签下class=jstest的内容 import io import sys import bs4 as bs import urllib.request ...
python抓网页数据【ref:http://www.1point3acres.com/bbs/thread-83337-1-1.html】
前言:数据科学越来越火了,网页是数据很大的一个来源.最近很多人问怎么抓网页数据,据我所知,常见的编程语言(C++,java,python)都可以实现抓网页数据,甚至很多统计\计算的语言(R,Matla ...
python爬虫抓网页的总结
python爬虫抓网页的总结更多 python 爬虫学用python也有3个多月了,用得最多的还是各类爬虫脚本:写过抓代理本机验证的脚本,写过在discuz论坛中自动登录自动发贴的脚本,写过自 ...
用Python抓网页的注意事项
用Python编一个抓网页的程序是非常快的,下面就是一个例子: import urllib2 html = urllib2.urlopen('http://blog.raphaelzhang.com' ...
node.js基础模块http、网页分析工具cherrio实现爬虫
node.js基础模块http.网页分析工具cherrio实现爬虫一.前言说是爬虫初探,其实并没有用到爬虫相关第三方类库,主要用了node.js基础模块http.网页分析工具cherri ...
2015第40周一Node学习
node学习尝试早上看了张丹大牛博客文章nodeJS学习路线图和node从零入门系列,感觉获益匪浅,尝试了里面几项内容,对node有了更深入的认识. npm npm是一个node包管理和分发工具,已 ...
Node.app让Nodejs平台在iOS和OS X系统上奔跑
首先呢,欢迎大家去查看相同内容的链接:http://www.livyfeel.com/nodeapp/. 由于那个平台我用的markdown语法,我也懒得改动了,就这样黏贴过来了. 这是一个惊人的恐怖 ...

随机推荐

uva 699 the falling leaves——yhx
aaarticlea/png;base64,iVBORw0KGgoAAAANSUhEUgAAA3QAAAMsCAIAAACTL3d2AAAgAElEQVR4nOx9y7GuPA4tKRADk/92T8 ...
CSS3属性选择器与(:not)选择器
一:css3属性选择器: img[alt]{ border:2px dashed #000; } 这个选择器会匹配页面标签中任何一个含有alt属性的图片标签. 还可以通过设定属性值来缩小匹配范围: ...
使用Android Studio搭建Android集成开发环境（图文教程）
[声明] 欢迎转载,但请保留文章原始出处→_→ 生命壹号:http://www.cnblogs.com/smyhvae/ 文章来源:http://www.cnblogs.com/smyhvae/p/ ...
java 21 - 14 Properties类
类 Properties Properties 类表示了一个持久的属性集.Properties 可保存在流中或从流中加载.属性列表中每个键及其对应值都是一个字符串. 注意:Properties是Has ...
c# 扩展方法奇思妙用
# 扩展方法出来已久,介绍扩展方法的文章也很多,但都是笼统的.本人最近一直在思考扩展方法的应用,也悟出了一些,准备将这最近一段时间对扩展方法的思考,写成一个系列文章.每个文章只介绍一个应用方面,篇幅不 ...
[转]hive实例讲解实现in和not in子句
FROM : http://www.cnblogs.com/ggjucheng/archive/2013/01/03/2842855.html 目前hive不支持 in或not in 中包含查询子句的 ...
【转】PHP date("Y-m-d H:i:s");获取当前时间差8小时解决办法
原因: 网络资 ...
CSS3之firefox&safari背景渐变之争 - [前端技术][转]
Firefox浏览器下的渐变背景 Firefox3.6background:-moz-linear-gradient(top, red, rgba(0, 0, 255, 0.5));chrome/S ...
目标检测——HOG特征
1.HOG特征: 方向梯度直方图(Histogram of Oriented Gradient, HOG)特征是一种在计算机视觉和图像处理中用来进行物体检测的特征描述子.它通过计算和统计图像局部区域的 ...
Objective-c归档的概念和用法
‘

NODE学习:利用nodeJS去抓网页的信息

NODE学习:利用nodeJS去抓网页的信息的更多相关文章

随机推荐

热门专题