上次的网页爬虫写完后,又打算做一个爬图的工具。前两天已经写好了代码。思路如下:

分析页面还是采用cheerio,对<div>中的img进行分析抽取,拿到图片的url。然后用childprocess调用系统的curl工具来下载这些远程url的图片。最后将这些写入到系统的硬盘中。

功能代码如下(只是下载图片的功能代码):

var url=require('url');
var fs=require('fs');
var cp=require('child_process'); var DOWNLOAD_DIR='./';
var file_url='http://htmljs.b0.upaiyun.com/uploads/1396874069658-nodejs_1280x1024.png'; function downloads(file_url){
var filename=url.parse(file_url).pathname.split('/').pop();
var file=fs.createWriteStream(DOWNLOAD_DIR+filename);
var curl=cp.spawn('curl',[file_url]); //use spawn
curl.stdout.on('data',function(data){
file.write(data);
});
curl.stdout.on('end',function(data){
file.end();
console.log(filename+'downloaded to'+DOWNLOAD_DIR);
}); curl.on('exit',function(code){
if(code!=0){
console.log('Failed:'+code);
}
}); }; downloads(file_url);

但是发现了一个问题。就是下载的图的数量比较少的时候,一切都还好。当循环页面下载的时候,一旦并行任务过多,立刻就不行了。因为并发量太大。

后来尝试用http的get方法来读图片,结果性能更不行,还不如系统的curl。

去cnode请教了一下,有前辈说需要限制一下并发量,用aysnc。

也是在下班后等零碎的时间,去aysnc的github(https://github.com/caolan/async)上看了一下,运行了几个实例。发现async的确不错。

先说下js异步回调的问题,按照传统的回调来,处理回调中的数据,发现只能一层套一层的。刚开始感觉这种方式不错,后来套的多了,才发现这种方式,太死了。

async是解决这个问题的。

为了解决我遇到的问题,所以着重看了一下它的控制流方面的东西。

async.series 和parallel.

这两个,一个是顺序的一个是并行的。

api里面有讲他的用法,他们都有(tasks, [callback])的参数。第一个参数是任务,第二个是得到前面任务数据的callback。

其中多个task,可以用数组,也可以用对象。本人倾向用对象。

async.series({
one: function(callback){
callback(null, 'one');
},
two: function(callback){
callback(null, 'two');
}
},
function(err, results) {
// results is now equal to: {one: 'one', two: 'two'}
});

同样,可以打印results中的某些属性,results.one什么的。

parallel和series是一样的用法。

所以,采用这种并行的方式,把之前写的工具改造一下,我们就不需要再往下套函数处理了:

var cheerio=require('cheerio');
var request=require('request');
var fs=require('fs');
var async=require('async'); var url='http://www.cnblogs.com/juepei/';
var result=new Array(); async.parallel({
one:function(cb){
request(url,function(error,res,body){
if(!error && res.statusCode==200){
var $=cheerio.load(body);
$('div').filter(function(i,ele){
if($(this).attr('class')==='postTitle'){
result.push($(this).text().trim());
}
});
//console.log(result);
cb(result);
}
});
}
},function(err,results){
if(err){
console.log(err);
}else{
console.log(results.one);
}
});

关于最后一个回调函数,必须要处理err,不然的话,会报results为undefined。这是不是async规定的,目前还不知道,如果有前辈知道为何,请赐教。

从而,再下载大量图片的时候,我们就可以采用parallelLimit(tasks, limit, [callback])这个函数,对并行任务的数量进行限制一下,就可解决问题了。晚上回去试试,看是不是已经ok了。

在此附上本人的github地址:https://github.com/ThinkCats ,大家可以相互交流,共同进步。

Nodejs异步框架——async的更多相关文章

  1. nodejs异步调用async

    犹豫nodejs是异步编程模型,有一些在同步编程中很容易做到的事情,现在却变得很麻烦,async的流程控制就是为了简化这些操作var async = require('async'); 1.serie ...

  2. MVC+Spring.NET+NHibernate .NET SSH框架整合 C# 委托异步 和 async /await 两种实现的异步 如何消除点击按钮时周围出现的白线? Linq中 AsQueryable(), AsEnumerable()和ToList()的区别和用法

    MVC+Spring.NET+NHibernate .NET SSH框架整合   在JAVA中,SSH框架可谓是无人不晓,就和.NET中的MVC框架一样普及.作为一个初学者,可以感受到.NET出了MV ...

  3. Nodejs异步异常处理domain

    前言 程序开发中,最麻烦的事情之一就是异常处理:对于Nodejs程序开发,最麻烦的事情莫过于异步异常处理. 以MVC的多层架构设计角度,异常总是要一层一层向上抛出,最后在客户端出打印错误.但是,Nod ...

  4. NodeJS异步I/O解析

    在现在的项目开发中,任何一个大型项目绝对不是简简单单的采用一个种语言和一种框架,因为每种语言和框架各有优势,与其死守一个,不与取各家之所长,依次得到一个高性能.搞扩展的产品. 对于一个.NET开发者, ...

  5. spring boot / cloud (四) 自定义线程池以及异步处理@Async

    spring boot / cloud (四) 自定义线程池以及异步处理@Async 前言 什么是线程池? 线程池是一种多线程处理形式,处理过程中将任务添加到队列,然后在创建线程后自动启动这些任务.线 ...

  6. c#中@标志的作用 C#通过序列化实现深表复制 细说并发编程-TPL 大数据量下DataTable To List效率对比 【转载】C#工具类:实现文件操作File的工具类 异步多线程 Async .net 多线程 Thread ThreadPool Task .Net 反射学习

    c#中@标志的作用   参考微软官方文档-特殊字符@,地址 https://docs.microsoft.com/zh-cn/dotnet/csharp/language-reference/toke ...

  7. springboot:异步调用@Async

    在后端开发中经常遇到一些耗时或者第三方系统调用的情况,我们知道Java程序一般的执行流程是顺序执行(不考虑多线程并发的情况),但是顺序执行的效率肯定是无法达到我们的预期的,这时就期望可以并行执行,常规 ...

  8. 抓住异步编程async/await语法糖的牛鼻子: SynchronizationContext

    长话短说,本文带大家抓住异步编程async/await语法糖的牛鼻子: SynchronizationContext 引言 C#异步编程语法糖async/await,使开发者很容易就能编写异步代码. ...

  9. Nodejs ORM框架Sequelize快速入门

    Nodejs ORM框架Sequelize快速入门 什么是ORM? 简单的讲就是对SQL查询语句的封装,让我们可以用OOP的方式操作数据库,优雅的生成安全.可维护的SQL代码.直观上,是一种Model ...

随机推荐

  1. 网站发布时候,图片,css,js等都不显示

    因为IIS里面的MIME类型没有添加,就是安装IIS时候没有勾选对.需要重新勾选,安装IIS.

  2. Struct2总结

    摘自<javaWeb整合开发王者归来> 一.Struct2工作流程 1.访问jsp页面  /struts2/login.jsp 2.提交表单后数据提交给 /struts2/loginPer ...

  3. OpenCV(图像处理)—访问像素的三种方法

    方法一:用指针访问像素 #include <opencv2/opencv.hpp> #include <opencv2/core/core.hpp> #include < ...

  4. 【c++】多层次继承类对象的构造函数参数的传递方法

    #include <iostream.h> //基类CBase class CBase { int a; public: CBase(int na) { a=na; cout<< ...

  5. 11-简单解释spingmvc项目的结构

    可以简单的理解为下面这样子:

  6. Halcon的一维条码解码步骤和解码技巧

    一.图像预处理和条码增强 对比度太低:scale_image(或使用外部程序scale_image_range),增强图像的对比度. 图像模糊:emphasize锐化图像,使条码看起来更清晰. 深色背 ...

  7. Luogu 3959 [NOIP2017] 宝藏

    NOIP2017最后一道题 挺难想的状压dp. 受到深度的条件限制,所以一般的状态设计带有后效性,这时候考虑把深度作为一维,这样子可以保证所有状态不重复计算一遍. 神仙预处理:先处理出一个点连到一个集 ...

  8. Ubuntu部分快捷键的使用简介

    1.切换到字符界面 Ctrl+Alt+F1 切换到tty1字符界面 Ctrl+Alt+F2 切换到tty2字符界面 Ctrl+Alt+F3 切换到tty3字符界面 Ctrl+Alt+F4 切换到tty ...

  9. Debian 利用 iso 镜像完全离线更新 apt-cdrom

    1 目的 在日常的 linux 服务器管理中,出于某些考虑,服务器要求与 Internet 完全隔离. 这使得我们对系统的更新和软件包的升级感到无比头疼. 下面介绍的这种方法,采用 ISO 文件,进行 ...

  10. 原生 JS 实现移动端 Touch 滑动反弹

    什么是 Touch滑动?就是类似于 PC端的滚动事件,但是在移动端是没有滚动事件的,所以就要用到 Touch事件结合 js去实现,效果如下: 1. 准备工作 什么是移动端的 Touch事件?在移动端 ...