Phantomjs+Nodejs+Mysql数据抓取（2.抓取图片）

概要
这篇博客是在上一篇博客Phantomjs+Nodejs+Mysql数据抓取（1.抓取数据）

http://blog.csdn.net/jokerkon/article/details/50868880

后进行的第二部分，请各位读者在看这篇博客之前先浏览上一篇，因为这里面有部分代码会沿用到上一部分的抓取结果。
好，现在开始正式的抓取图片的讲解
首先，我们先来看看代码：

var page =require('webpage').create();

var address='http://product.pconline.com.cn/notebook/series/417764.html';

var fs = require('fs');

var mypath='version/Server/server.txt';

var stream = null;

var steams = null;

var files = null;

var K=1;

var line ='';

var cate ='';

var url = '';

var dragPath='version/Server/server_img.txt';

phantom.outputEncoding="gbk";

page.settings.userAgent = "Mozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; rv:11.0) like Gecko";

function start(url){

  page.open(url,function(status){

    setTimeout(function(){

    if(status == 'success'){

    console.log('open success!');

    console.log('==========begin work!=============');

    stream = page.evaluate(function(){

      var title = document.querySelector('.pro-info').innerText;

      // title = title.replace('图片','');

        var cont = document.querySelectorAll('.pics>li>a>img')[1].src;

        // var imgUrls = document.querySelectorAll('.pics>li>a>img')[0].src;

        var href = document.querySelector('.pics>li>a');

          return title+'：'+cont+'：'+href+'\r\n';

    });

    console.log(stream);

    try{

      fs.write(dragPath, stream, 'a');

    }catch(e){

      console.log(e);

      fs.write(dragPath, null, 'a');

    }

  }else{

    console.log('page open fail!');

  }

    before();

            }, 100);

  });

}

function readFile(status){

    streams = fs.open(mypath,'r');

    before();

}

function before(){

  console.log('=========work in befor==========='+K);

  K++;

  if(!streams.atEnd()){

    console.log('=========work in befor get Next Line===========');

        line = streams.readLine();

        cate = line.split(',');

    var imgUrl = cate[1].replace('http://product.pconline.com.cn/server/','');

    var imgs = imgUrl.split('/');

    var imgsUrl = imgs[1].split('.');

    imgsUrl = 'http://product.pconline.com.cn/pdlib/'+imgsUrl[0]+'_picture.html';

    console.log(imgsUrl);

        start(imgsUrl);

    }else{

    console.log('end!!!!!!!!!!!!');

    phantom.exit();

    }

}

page.open(address,function(status){

  readFile(status);

})

这部分代码的结构和前面的都很相似，下面我们继续进行代码剖析

page.open(address,function(status){

  readFile(status);

})

与前面相似，这里是我们代码的入口，程序启动的入口。

然后会调用readFile函数

function readFile(status){

    streams = fs.open(mypath,'r');

    before();

}

这里使用phantomjs里面的fs请求，主要就是用来解决文件读取的问题

var fs = require('fs');

再读取到文件之后，我们将进行数据处理：

function before(){

  console.log('=========work in befor==========='+K);

  K++;

  if(!streams.atEnd()){

    console.log('=========work in befor get Next Line===========');

        line = streams.readLine();

        cate = line.split(',');

    var imgUrl = cate[1].replace('http://product.pconline.com.cn/server/','');

    var imgs = imgUrl.split('/');

    var imgsUrl = imgs[1].split('.');

    imgsUrl = 'http://product.pconline.com.cn/pdlib/'+imgsUrl[0]+'_picture.html';

    console.log(imgsUrl);

        start(imgsUrl);

    }else{

    console.log('end!!!!!!!!!!!!');

    phantom.exit();

    }

}

我们可以先来看看原本数据是什么样的：

联想ThinkServer TS130 S1225/2G/500O       价格:￥5417,http://product.pconline.com.cn/server/lenovo/514943.html

上面是我们从文件中读取到的数据，这一段数据都属于这个品牌电脑的数据。在读取完之后，我们对url进行拼接。

http://product.pconline.com.cn/pdlib/514943_picture.html

这个是我们要获取到的目的url，读者可以自己研究有什么规律，我这里的拼接方法有点挫。你们可以自己改进。

function start(url){

  page.open(url,function(status){

    setTimeout(function(){

    if(status == 'success'){

    console.log('open success!');

    console.log('==========begin work!=============');

    stream = page.evaluate(function(){

      var title = document.querySelector('.pro-info').innerText;

      // title = title.replace('图片','');

        var cont = document.querySelectorAll('.pics>li>a>img')[1].src;

        // var imgUrls = document.querySelectorAll('.pics>li>a>img')[0].src;

        var href = document.querySelector('.pics>li>a');

          return title+'：'+cont+'：'+href+'\r\n';

    });

    console.log(stream);

    try{

      fs.write(dragPath, stream, 'a');

    }catch(e){

      console.log(e);

      fs.write(dragPath, null, 'a');

    }

  }else{

    console.log('page open fail!');

  }

    before();

            }, 100);

  });

}

最后调用数据抓取的函数，

var title = document.querySelector('.pro-info').innerText;

      // title = title.replace('图片','');

        var cont = document.querySelectorAll('.pics>li>a>img')[1].src;

        // var imgUrls = document.querySelectorAll('.pics>li>a>img')[0].src;

        var href = document.querySelector('.pics>li>a');

          return title+'：'+cont+'：'+href+'\r\n';

这里面的就是我们要抓数据的处理，分别获取到的是标题，小图的绝对地址，已经大图的url。

联想ThinkServer TS130 S1225/2G/500O图片：http://img.pconline.com.cn/images/product/5149/514938/TS130-b_sn8.jpg：http://product.pconline.com.cn/pdlib/514943_bigpicture7748163.html

这部分数据就是其中一条我们抓取到的数据。再抓完之后会进行写入操作，然后再重新调用before（）方法，进行循环调用，直至读取玩文件的所有内容。

以上就是我们进行图片抓取的全部过程，原本还有一份代码是用来抓取大图的，但是由于与本文的内容相似度极高，所以这里我就不列出来了。读者可以参考这篇文章进行大图的抓取。

NodeJs 图片下载
接下来我在讲一下如何对我们刚刚抓下来的图片绝对地址进行文件下载。

先上代码：

var request = require('request');

var lineReader = require('line-reader');

var fs = require('fs');

var i=0;

lineReader.eachLine('imgs.txt', {encoding: 'utf8'},function(line, last) {

  var cate = line.split('：');

  var url1 = cate[1];

  var tt = cate[0].replace(/\//g,',');

  i++;

  console.log(tt+'==============>'+i);

  if(!(url1 == 'null')){

    tt = tt.replace(/\s/g,'');

    tt = tt.replace(/[^a-z\d]/ig,"");

    var filename1 = 'images/router_large/'+tt+'bPic.jpg'

    request(url1).pipe(fs.createWriteStream(filename1));

  }

});

没错代码就那么短，我们来一段一段的分析：

lineReader.eachLine('imgs.txt', {encoding: 'utf8'},function(line, last)

这里是我们下载文件的入口，使用到了nodejs里面的

var lineReader = require('line-reader');

这段代码的用处就是逐行读取文件。

  tt = tt.replace(/\s/g,'');

    tt = tt.replace(/[^a-z\d]/ig,"");

这里面我主要是处理一下文件名，除去了一些特殊符号已经中文名，便于存入数据库。

request(url1).pipe(fs.createWriteStream(filename1));

最后调用这部分代码进行文件下载。

以上就是抓取图片的全部内容，谢谢观看。

Phantomjs+Nodejs+Mysql数据抓取（2.抓取图片）的更多相关文章

Phantomjs+Nodejs+Mysql数据抓取（1.数据抓取）
概要: 这篇博文主要讲一下如何使用Phantomjs进行数据抓取,这里面抓的网站是太平洋电脑网估价的内容.主要是对电脑笔记本以及他们的属性进行抓取,然后在使用nodejs进行下载图片和插入数据库操作. ...
测试开发Python培训：抓取新浪微博抓取数据-技术篇
测试开发Python培训:抓取新浪微博抓取数据-技术篇 poptest是国内唯一一家培养测试开发工程师的培训机构,以学员能胜任自动化测试,性能测试,测试工具开发等工作为目标.在poptest的se ...
网站爬取-案例三：今日头条抓取(ajax抓取JS数据)
今日头条这类的网站制作,从数据形式,CSS样式都是通过数据接口的样式来决定的,所以它的抓取方法和其他网页的抓取方法不太一样,对它的抓取需要抓取后台传来的JSON数据,先来看一下今日头条的源码结构:我们 ...
PHP登入网站抓取并且抓取数据
有时候需要登入网站,然后去抓取一些有用的信息,人工做的话,太累了.有的人可以很快的做到登入,但是需要在登入后再去访问其他页面始终都访问不了,因为他们没有带Cookie进去而被当做是两次会话.下面看看代 ...
C#使用Selenium实现QQ空间数据抓取说说抓取
上一篇讲的是如何模拟真人操作登录QQ空间,本篇主要讲述一下如何抓取QQ说说数据继续登录空间后的操作登陆后我们发现QQ空间的菜单其实是固定的,只需要找到对应元素就可以,继续XPath 可以得到地址 ...
nodejs mysql 数据查询例子
1.安装nodejs 2.安装mysql npm包地址:https://github.com/felixge/node-mysql npm install mysql 3.相应API查看及调用: ...
Mysql 数据分组取某字段值所有最大的记录行
需求: 表中同一个uid(用户)拥有多条游戏等级记录,现需要取所有用户最高等级(level)的那一条数据,且时间(time)越早排越前.这是典型的排名表 +------+-------+------- ...
Python3.6爬虫+Djiago2.0+Mysql --数据爬取
1.下载对应版本的python mysql 模块我的是:pymssql-2.2.0.dev0-cp36-cp36m-win_amd64.whl 2.手动创建table create table gr ...
Golang分布式爬虫：抓取煎蛋文章|Redis/Mysql|56,961 篇文章
--- layout: post title: "Golang分布式爬虫:抓取煎蛋文章" date: 2017-04-15 author: hunterhug categories ...

随机推荐

Sublime Text3安装JsHint
介绍 Sublime Text3使用jshint依赖Nodejs,SublimeLinter和Sublimelinter-jshint. NodeJs的安装省略. 安装SublimeLinter Su ...
Shell替换
如果表达式中包含特殊字符,Shell 将会进行替换.例如,在双引号中使用变量就是一种替换,转义字符也是一种替换. #!/bin/bash a= echo -e "Value of a is ...
gentoo 安装
加载完光驱后 1进行ping命令查看网络是否通畅 2设置硬盘的标识为GPT(主要用于64位且启动模式为UEFI,还有一个是MBR,主要用于32位且启动模式为bois) parted -a optima ...
Kali对wifi的破解记录
好记性不如烂笔头,记录一下. 我是在淘宝买的拓实N87,Kali可以识别,还行. 操作系统:Kali 开始吧. 查看一下网卡的接口.命令如下 airmon-ng 可以看出接口名称是wlan0mon. ...
DDR的前世与今生（一）
作者:一博科技 DDR SDRAM全称为Double Data Rate SDRAM,中文名为"双倍数据率SDRAM".DDR是在原有的SDRAM的基础上改进而来,严格的说DDR应 ...
【SSM框架】Spring + Springmvc + Mybatis 基本框架搭建集成教程
本文将讲解SSM框架的基本搭建集成,并有一个简单demo案例说明:1.本文暂未使用maven集成,jar包需要手动导入. 2.本文为基础教程,大神切勿见笑. 3.如果对您学习有帮助,欢迎各种转载,注 ...
.Net 大型分布式基础服务架构横向演变概述
一. 业务背景构建具备高可用,高扩展性,高性能,能承载高并发,大流量的分布式电子商务平台,支持用户,订单,采购,物流,配送,财务等多个项目的协作,便于后续运营报表,分析,便于运维及监控. 二. 基础 ...
JS的内建函数reduce
@(js) reduce函数,是ECMAScript5规范中出现的数组方法.在平时的工作中,相信大家使用的场景并不多,一般而言,可以通过reduce方法实现的逻辑都可以通过forEach方法来变相的实 ...
.NET面试题集锦②（Part 二）
一.前言部分文中的问题及答案多收集整理自网络,不保证100%准确,还望斟酌采纳. 1.实现产生一个int数组,长度为100,并向其中随机插入1-100,并且不能重复. ]; ArrayList my ...
iOS之判断手机号码、邮箱格式是否正确
//判断手机号码格式是否正确 + (BOOL)valiMobile:(NSString *)mobile{ mobile = [mobile stringByReplacingOccurren ...

Phantomjs+Nodejs+Mysql数据抓取（2.抓取图片）

Phantomjs+Nodejs+Mysql数据抓取（2.抓取图片）的更多相关文章

随机推荐

热门专题