利用Nodejs & Cheerio & Request抓取Lofter美女图片

还是参考了这篇文章：

http://cnodejs.org/topic/54bdaac4514ea9146862abee

另外有上面文章 nodejs抓取网易公开课的一些经验。

代码如下，注意其中用到了 http获取网页结果，request进行http请求，cheerio进行解析，mkdirp创建目录，fs创建文件，iconv-lite进行格式转换（此例非必须）。

curl.js：

/**

 * Created by baidu on 16/10/17.

 */

var http = require("http");

function download(url, callback) {

    var chunks = [];

    http.get(url, function(res) {

        res.on('data', function(chunk) {

            chunks.push(chunk);

        });

        res.on('end', function () {

            callback(chunks);

        });

    }).on('error', function () {

        callback(chunks);

    })

}

exports.download = download;

saveimage.js

/**

 * Created by baidu on 16/10/17.

 */

var fs = require('fs');

var request = require('request');

var saveImage = function(url, filename) {

    console.log('Image=>' + url);

    request(url).pipe(fs.createWriteStream(filename));

    console.log('Save=>' + filename);

}

exports.saveImage = saveImage;

HelloWorld.js

/**

 * Created by baidu on 16/10/17.

 */

console.log("Hello World");

var cheerio = require('cheerio');

var curl = require('./curl');

var iconv = require('iconv-lite');

var mkdirp = require('mkdirp');

var saveimage = require('./saveimage');

//var url = 'http://open.163.com/special/opencourse/englishs1.html';

var url = 'http://loftermeirenzhi.lofter.com/tag/%E4%BA%BA%E5%83%8F?page=';

var dir = './images';

mkdirp(dir, function(err) {

    if (err) {

        console.log(err);

    }

});

curl.download(url, function (chunks) {

    if (chunks) {

        var data = iconv.decode(Buffer.concat(chunks), 'gbk');

        var $ = cheerio.load(data);

        $('a.img').each(function (i, e) {

            var item = $(e).children('img').last().attr('src');

            saveimage.saveImage(item, dir + '/' + item.substr(item.indexOf('.jpg')-10, 14));

        });

        console.log('done');

    }

    else {

        console.log('error');

    }

});

运行之后，发现基本上下载的图片文件都是空。

看了例子，将saveimage.js中的request部分做了一些修改，如下：

/**

 * Created by baidu on 16/10/17.

 */

var fs = require('fs');

var request = require('request');

var saveImage = function(url, filename) {

    console.log('Image=>' + url);

    request.head(url, function(err, res, body) {

        request(url).pipe(fs.createWriteStream(filename));

    });

    console.log('Save=>' + filename);

}

exports.saveImage = saveImage;

然后运行，成功，打印：

/usr/local/bin/node /Users/baidu/Documents/Data/Work/Code/Self/nodejs/helloworld/HelloWorld.js

Hello World

Image=>http://imgsize.ph.126.net/?imgurl=http://img2.ph.126.net/CiL5IULFm0TtZBjxnhcfQQ==/52072870709354180.jpg_110x110x0x90.jpg

Save=>./images/0709354180.jpg

Image=>http://imglf1.nosdn.127.net/img/SzZqcDg4Rk01VGo5cW81TEorTU5zL2dCbjBLbktBODlCSkFGSXlIdEw5dEFvSDlGaTNjZmJ3PT0.jpg?imageView&thumbnail=500x0&quality=96&stripmeta=0&type=jpg

Save=>./images/TNjZmJ3PT0.jpg

......

done

然后项目目录中，生成了images目录，其中有美女图片：

对上面这个改动能起到效果，还不是特别明白。(head一般用来判断url是否有效。)

加了head成功，也有可能是因为第一次图片虽然没下载成功，但是已经启动下载，做了缓存。实验了一下，在成功一次之后，把head命令去掉：

//request.head(url, function(err, res, body) {

        request(url).pipe(fs.createWriteStream(filename));

//});

发现还是能够成功。所以有很大可能是图片加载延迟造成。

有时间的时候，要看一下，怎样避免图片下载超时导致下载失败的问题，有没有设置超时的地方。

好像在request初始化的时候，可以设置：

request({

    url: jurl,

    gzip: true,

    timeout: xxx

  })

后面再学习 Javascript Request 以及渲染的一些内容。尤其是 phantomjs 渲染动态网页的方式。

利用Nodejs & Cheerio & Request抓取Lofter美女图片的更多相关文章

【Python爬虫程序】抓取MM131美女图片，并将这些图片下载到本地指定文件夹。
一.项目名称抓取MM131美女写真图片,并将这些图片下载到本地指定文件夹. 共有6种类型的美女图片: 性感美女清纯美眉美女校花性感车模旗袍美女明星写真抓取后的效果图如下,每个图集是一个独 ...
使用nodejs+http(s)+events+cheerio+iconv-lite爬取2717网站图片数据到本地文件夹
源代码如下: //(node:9240) Warning: Setting the NODE_TLS_REJECT_UNAUTHORIZED environment variable to '0' ...
Phantomjs+Nodejs+Mysql数据抓取（2.抓取图片）
概要这篇博客是在上一篇博客Phantomjs+Nodejs+Mysql数据抓取(1.抓取数据) http://blog.csdn.net/jokerkon/article/details/50868 ...
python抓取性感尤物美女图
由于是只用标准库,装了python3运行本代码就能下载到多多的美女图... 写出代码前面部分的时候,我意识到自己的函数设计错了,强忍继续把代码写完. 测试发现速度一般,200K左右的下载速度,也没有很 ...
利用python scrapy 框架抓取豆瓣小组数据
因为最近在找房子在豆瓣小组-上海租房上找,发现搜索困难,于是想利用爬虫将数据抓取. 顺便熟悉一下Python. 这边有scrapy 入门教程出处:http://www.cnblogs.com/txw1 ...
如何利用Python网络爬虫抓取微信朋友圈的动态（上）
今天小编给大家分享一下如何利用Python网络爬虫抓取微信朋友圈的动态信息,实际上如果单独的去爬取朋友圈的话,难度会非常大,因为微信没有提供向网易云音乐这样的API接口,所以很容易找不到门.不过不要慌 ...
(转)利用Beautiful Soup去抓取p标签下class=jstest的内容
1.利用Beautiful Soup去抓取p标签下class=jstest的内容 import io import sys import bs4 as bs import urllib.request ...
Android利用tcpdump和wireshark抓取网络数据包
Android利用tcpdump和wireshark抓取网络数据包主要介绍如何利用tcpdump抓取andorid手机上网络数据请求,利用Wireshark可以清晰的查看到网络请求的各个过程包括三次 ...
Python爬虫【三】利用requests和正则抓取猫眼电影网上排名前100的电影
#利用requests和正则抓取猫眼电影网上排名前100的电影 import requests from requests.exceptions import RequestException imp ...

随机推荐

ORM数据库查询操作之基于双下划线的跨表查询
创建表结构 from django.db import models class Book(models.Model): title=models.CharField(max_length=32) ...
Spring boot 集成hessian - LocalDateTime序列化和反序列化
- 反序列化 import com.caucho.hessian.HessianException; import com.caucho.hessian.io.AbstractDeserializer ...
Django基础之forms组件中的ModelForm组件
Django的model form组件这是一个神奇的组件,通过名字我们可以看出来,这个组件的功能就是把model和form组合起来,先来一个简单的例子来看一下这个东西怎么用:比如我们的数据库中有这样 ...
redis之（十六）redis的cluster集群环境的搭建，转载
最近redis已经比较火了,有关redis的详细介绍,网上有一大堆,我这里只作简单的介绍,然后跟大家一起学习Redis Cluster 3.0的搭建与使用.Redis是一款开源的.网络化的.基于内存的 ...
AC日记——[LNOI2014]LCA bzoj 3626
3626 思路: 离线操作+树剖: 代码: #include <bits/stdc++.h> using namespace std; #define maxn 100005 #defin ...
vue验证码组件
1.效果图 2.全部代码: <template> <div class="join_formitem"> <label class="enq ...
【剑指offer】面试题 10. 斐波那契数列
面试题 10. 斐波那契数列题目一:求斐波那契数列的第n项题目描述:求斐波拉契数列的第n项写出一个函数,输入n,求斐波拉契(Fibonacci)数列的第n项.斐波拉契数列定义如下: C++ 实现 ...
数据库的主从复制常用Xshell命令
mysql配置 1.设置数据库用户名和密码 mysqladmin -u root password "root" 2.打开3306端口号 iptables -I INPUT -p ...
【cocos2d-js网络教程篇】cocos2d-js http网络请求
前言刚入手cocos2d-js,看到网上的JS的http网络请求,大部分都是错的.原因在于,js-tests里面的网络请求实例没有给出加载完成事件.正确的加载完成事件如下: var xhr = cc ...
B. Black Square（字符串）
B. Black Square time limit per test 1 second memory limit per test 256 megabytes input standard inpu ...

利用Nodejs & Cheerio & Request抓取Lofter美女图片

利用Nodejs & Cheerio & Request抓取Lofter美女图片的更多相关文章

随机推荐

热门专题