Node.js爬取百度图片瀑布流,使用class类封装。
//爬取百度高清图片
const phantom = require('phantom')
const express = require('express');
const app = express();
const fs= require('fs');
const cheerio = require('cheerio');
const request = require('request')
let server = app.listen(2000, function () {
let host = server.address().address;
let port = server.address().port;
console.log('Your App is running at http://%s:%s', host, port);
}); class stealData { constructor() {
// this.base_url = 'https://image.baidu.com/search/index?tn=baiduimage&ct=201326592&lm=-1&cl=2&ie=gb18030&word=%B6%AF%C2%FE%B1%DA%D6%BD&fr=ala&ala=1&pos=0&alatpl=wallpaper&oriquery=%E5%8A%A8%E6%BC%AB%E5%A3%81%E7%BA%B8'; //要爬取的网站
// this.base_url = 'https://image.baidu.com/search/index?tn=baiduimage&ipn=r&ct=201326592&cl=2&lm=-1&st=-1&fm=index&fr=&hs=0&xthttps=111111&sf=1&fmq=&pv=&ic=0&nc=1&z=&se=1&showtab=0&fb=0&width=&height=&face=0&istype=2&ie=utf-8&word=%E5%8A%A8%E6%BC%AB+%E5%A3%81%E7%BA%B8&oq=%E5%8A%A8%E6%BC%AB+%E5%A3%81%E7%BA%B8&rsp=-1'
this.base_url = 'https://image.baidu.com/search/index?tn=baiduimage&ipn=r&ct=201326592&cl=2&lm=-1&st=-1&fm=index&fr=&hs=0&xthttps=111111&sf=1&fmq=&pv=&ic=0&nc=1&z=&se=1&showtab=0&fb=0&width=&height=&face=0&istype=2&ie=utf-8&word=%E5%8A%A8%E6%BC%AB+%E5%A3%81%E7%BA%B8&oq=%E5%8A%A8%E6%BC%AB+%E5%A3%81%E7%BA%B8&rsp=-1' this.current_page = 1;
this.result_list = [];
this.a=''
}
async init() {
const instance = await phantom.create();//创建一个实例
try {
await this.openNet()//打开网页
await this.getLoadPictures();//获取高清图片地址
await this.imgSave(0);//下载图片
await instance.exit()//图片下完之后退出phantomjs环境
} catch (e) {
console.log(e);
}
} sleep(time) {
return new Promise((resolve) => {
console.log(`自动睡眠中,${time / 1000}秒后重新发送请求......`)
setTimeout(() => {
resolve();
}, time);
});
}//请求延迟时间,防止ip被封
delay(second) {
return new Promise((resolve) => {
setTimeout(resolve, second * 1000);
});
}//延迟时间
async openNet(){
await this.pageScroll(0)
} async pageScroll(i) {
const instance = await phantom.create();//创建一个实例
const page = await instance.createPage();
const that = this
const status = await page.open(this.base_url);//打开网站,返回的是一个状态
//网页加载的初始浏览器窗口大小
const size = await page.property('viewportSize', {
width: 1920,
height: 1080
})
await that.delay(5)
//滚动浏览器
await page.property('scrollPosition', {
left: 0,
top: 1000 * i
}) let content = await page.property('content')//获取dom元素
let $ = cheerio.load(content)
console.log($('.imgbox').length)
//如果图片数量少于20个 就一直往下滚
if($('.imgbox').length < 20) {
await this.pageScroll(++i)//回调自己 知道满足条件。也可使用for循环 可能速度有点慢
}
//所有的存储图片的dom元素都放在这里面
this.a = $('.imgitem')
}
//获取到缩略图集合
async getLoadPictures(a) {
const result_list = [];
let instance = await phantom.create();
let page = await instance.createPage();
let content = await page.property('content')
// let status = await page.open(this.base_url)
let $ = cheerio.load(content)
const that = this
//把所有的高清大图链接都统计起来
this.a.each((index, element) => {
result_list.push({
// title: $(element).find('.imgbox a').text(),
down_loda_url: ('https://image.baidu.com'+$(element).find('a').attr('href'))
});
});
that.result_list.push(...result_list);
// console.log('that.result_list',that.result_list[0])
}
//取到高清图链接 下载
async imgSave(i) {
let instance = await phantom.create();
let page = await instance.createPage();
let status = await page.open(this.result_list[i].down_loda_url)//打开高清大图链接
await this.delay(2)
let content = await page.property('content')
let $ = cheerio.load(content)
let src = $('#currentImg').attr('src')//获取高清大图的链接
console.log('statue',status)
console.log('src',src)
this.save(src,i)//保存图片
if(i<this.result_list.length) {
await this.imgSave(++i)//回掉自己 保存下一张图片。也可通过for循环 取到所有大图的链接 再集中下载 可能速度有点慢 }
}
//保存图片函数
save(url,i) {
console.log(`开始写入第${i+1}张`)
let ext = url.split('.').pop()
request(url).pipe(fs.createWriteStream(`./image/${new Date().getTime()}.${ext}`));
console.log(`写入成功`)
} } const thief = new stealData('xxx_url');
thief.init();
做了一些优化
//爬取百度高清图片
const phantom = require('phantom')
const express = require('express');
const app = express();
const fs= require('fs');
const cheerio = require('cheerio');
const request = require('request')
let server = app.listen(2000, function () {
let host = server.address().address;
let port = server.address().port;
console.log('Your App is running at http://%s:%s', host, port);
}); class stealData { constructor() {
this.base_url = 'https://image.baidu.com/search/index?ct=201326592&z=&tn=baiduimage&word=%E6%BC%AB%E5%A8%81%E5%9B%BE%E7%89%87&pn=0&ie=utf-8&oe=utf-8&cl=2&lm=-1&fr=ala&se=&sme=&width=1920&height=1080'
this.current_page = 1;
this.result_list = [];
this.a='';
this.urllist = []
}
async init() {
const instance = await phantom.create();//创建一个实例
try {
await this.openNet()//打开网页
await this.getLoadPictures();//获取缩略图图片地址
await this.getrealPictures();//获取高清图片地址并下载
} catch (e) {
console.log(e);
}
} sleep(time) {
return new Promise((resolve) => {
console.log(`自动睡眠中,${time / 1000}秒后重新发送请求......`)
setTimeout(() => {
resolve();
}, time);
});
}//请求延迟时间,防止ip被封
delay(second) {
return new Promise((resolve) => {
setTimeout(resolve, second * 1000);
});
}//延迟时间
async openNet(){
await this.pageScroll(0)
} async pageScroll(i) {
const instance = await phantom.create();//创建一个实例
const page = await instance.createPage();
const that = this
const status = await page.open(this.base_url);//打开网站,返回的是一个状态
//网页加载的初始浏览器窗口大小
const size = await page.property('viewportSize', {
width: 1920,
height: 1080
})
await that.delay(5)
//滚动浏览器
await page.property('scrollPosition', {
left: 0,
top: 1000 * i
}) let content = await page.property('content')//获取dom元素
let $ = cheerio.load(content)
console.log($('.imgbox').length)
//如果图片数量少于20个 就一直往下滚
if($('.imgbox').length < 20) {
await this.pageScroll(++i)//回调自己 知道满足条件。也可使用for循环 可能速度有点慢
}
//所有的存储图片的dom元素都放在这里面
this.a = $('.imgitem')
}
//获取到缩略图集合
async getLoadPictures(a) {
const result_list = [];
let instance = await phantom.create();
let page = await instance.createPage();
let content = await page.property('content')
let $ = cheerio.load(content)
const that = this
//把所有的缩略图链接都统计起来
this.a.each((index, element) => {
result_list.push({
// title: $(element).find('.imgbox a').text(),
down_loda_url: ('https://image.baidu.com'+$(element).find('a').attr('href'))
});
});
that.result_list.push(...result_list);
}
//取到每一个缩略图对应高清图链接并下载
async getrealPictures() {
let instance = await phantom.create();
let page = await instance.createPage();
for(let i=0;i<this.result_list.length;i++){
try {
let content = await page.property('content')
let status = await page.open(this.result_list[i].down_loda_url)
await this.delay(2)
let $ = cheerio.load(content)
let src = $('#currentImg').attr('src')//获取高清大图的链接
let ext = src.split('.').pop()
console.log('src',src)
console.log(`开始写入第${i+1}张`)
await request(src).pipe(fs.createWriteStream(`./Marvel/${new Date().getTime()}.${ext}`));
await this.sleep(3000)//防止被封
console.log(`写入成功`)
if(i==this.result_list.length-1){
console.log('跳出下载')
instance.exit()
}
}catch (e) {
console.log('errorheyu:',e)
} } } } const thief = new stealData('xxx_url');
thief.init();
参考:1、分分钟教你用node写个爬虫
Node.js爬取百度图片瀑布流,使用class类封装。的更多相关文章
- node.js爬取数据并定时发送HTML邮件
node.js是前端程序员不可不学的一个框架,我们可以通过它来爬取数据.发送邮件.存取数据等等.下面我们通过koa2框架简单的只有一个小爬虫并使用定时任务来发送小邮件! 首先我们先来看一下效果图 差不 ...
- selenium+chrome浏览器驱动-爬取百度图片
百度图片网页中中,当页面滚动到底部,页面会加载新的内容. 我们通过selenium和谷歌浏览器驱动,执行js,是浏览器不断加载页面,通过抓取页面的图片路径来下载图片. from selenium im ...
- 百度图片爬虫-python版-如何爬取百度图片?
上一篇我写了如何爬取百度网盘的爬虫,在这里还是重温一下,把链接附上: http://www.cnblogs.com/huangxie/p/5473273.html 这一篇我想写写如何爬取百度图片的爬虫 ...
- python 3 爬取百度图片
python 3 爬取百度图片 学习了:https://blog.csdn.net/X_JS612/article/details/78149627
- Python 爬虫实例(1)—— 爬取百度图片
爬取百度图片 在Python 2.7上运行 #!/usr/bin/env python # -*- coding: utf-8 -*- # @Author: loveNight import jso ...
- python爬虫-爬取百度图片
python爬虫-爬取百度图片(转) #!/usr/bin/python# coding=utf-8# 作者 :Y0010026# 创建时间 :2018/12/16 16:16# 文件 :spider ...
- Python爬虫:通过关键字爬取百度图片
使用工具:Python2.7 点我下载 scrapy框架 sublime text3 一.搭建python(Windows版本) 1.安装python2.7 ---然后在cmd当中输入python,界 ...
- python爬虫之爬取百度图片
##author:wuhao##爬取指定页码的图片,如果需要爬取某一类的所有图片,整体框架不变,但需要另作分析#import urllib.requestimport urllib.parseimpo ...
- Node.js爬取豆瓣数据
一直自以为自己vue还可以,一直自以为webpack还可以,今天在慕课逛node的时候,才发现,自己还差的很远.众所周知,vue-cli基于webpack,而webpack基于node,对node不了 ...
- Java爬取 百度图片Google图片Bing图片
先看看抓取的结果. 8个Java类: Startup.java - main函数 ImageCrawler.java - Crawler基类 BaiduImageCrawler.java - 百度图片 ...
随机推荐
- es6中箭头函数和this指向
箭头函数相当于匿名函数,简化了函数定义. 箭头函数有两种写法,当函数体是单条语句的时候可以省略{}和return. 另一种是包含多条语句,不可以省略{}和return. 特点 箭头函数最大的特点就是没 ...
- c++学习 5 预处理
一 内存分区 内存的分区变量存储,一般可以分为以下五个区,它们分别是: 可读可写 堆区:使用malloc.calloc.realloc.free以及c++里面的new和delete去动态申请. ...
- C# net core 从文件流中获取文件头、匹配文件类型
常用文件的文件头如下: (以前六位为准) JPEG (jpg),文件头:FFD8FF PNG (png),文件头:89504E47 GIF (gif),文件头:47494638 TIFF (tif), ...
- MLR算法双面网络时钟
MLR算法双面网络时钟------专业LED时钟厂家![点击进入] MLR算法双面网络时钟 NTP电子时钟功能说明: 双面NTP电子时钟采用独特结构设计,可根据客户要求订制显示布局:年.月.日.时.分 ...
- 1js 高级
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
- Python笔记(5)——if 语句一:条件测试(Python编程:从入门到实践)
每条if语句的核心都是一个值为True或False的表达式.Python根据条件测试的值为True还是False来决定是否执行if语句中的代码.如果条件测试的值为True,Python就执行紧跟在if ...
- 复制文件到U盘提示“一个意外错误使您无法复制该文件”处理办法
运行cmd 运行 chkdsk H(U盘所在盘符):/f 即可
- Lombok和MapStruct冲突
Lombok和MapStruct冲突导致无法生成正确的class文件. lombok自动生成getset等冗余代码. MapStruct对象copy.传统的BeanUtils.copy等利用的反射原理 ...
- 基于C语言的小学四则运算出题器
一.实验目的: 1.帮助老师产出每周随机的300道含有两个运算符的四则运算,. 2.每次题目的产出均为随机,增强同学的四则运算能力. 二.实验环境: Visual C++ 三.实验内容: 1.实现随机 ...
- java 1.8 API帮助文档
链接:https://pan.baidu.com/s/1MNZqIokMDWNZF-nXnoHzxA 提取码:zw13