本文来自网易云社区

作者:唐钊

最近在看 node 爬虫相关的一些东西,我记得还是很久以前常用的 node 爬虫工具还是 superagengt+cherrio,他们的思路是通过发起 http 请求然后截取 respone 的内容,但是随着前端mvvm等框架的盛行,现在更多的内容是异步加载了,所以通过这种传统的爬虫方式已经很难抓取到我们想要的内容了,那么Puppeteer又有什么亮点呢?接下来我们详细介绍一下这个由 google 官方团队维护的大杀器!

Puppeteer是一个Node库,由Chrome官方团队进行维护,提供接口来控制headless Chrome。Headless Chrome是一种不使用Chrome来运行Chrome浏览器的方式。简单的来说就是一个运行在命令行中的 chrome,我们可以通过代码来实现我们常规的浏览器浏览网页的功能。这样就能保证我们拿到的内容和正常通过浏览器查看的是一毛一样的!

Puppeteer 核心功能

  • 利用网页生成PDF、图片

  • 爬取SPA应用,并生成预渲染内容(即“SSR” 服务端渲染)

  • 可以从网站抓取内容

  • 自动化表单提交、UI测试、键盘输入等

  • 帮你创建一个最新的自动化测试环境(chrome),可以直接在此运行测试用例

  • 捕获站点的时间线,以便追踪你的网站,帮助分析网站性能问题

接下来我们通过一些简单的示例来看一下它的使用

安装

安装还是常规的流程,通过yarn或npm来完成。只需运行下面的命令:

yarn add pupeeter//ornpm i -S puppeteer

DEMO

demo-截屏

const puppeteer = require("puppeteer");   //引入 puppeteer(async() => {    /*通过 launch 生成一个’浏览器‘实例,
    option 中的 headless 是个布尔值,如果是 false 的话你就会看到一个浏览器从打开,到完成你整个任务的全过程,
    默认是 true,也就是在后台自动完成你的任务
    */
    const browser = await puppeteer.launch({ headless: false });  
    //打开一个新的标签页
    const page = await browser.newPage();    //跳转到我们想要的地址去
    await page.goto("http://www.hockor.com/");    //默认打开的视口大小是800X600 ,我们可以通过如下代码来设置窗口的大小,
    await page.setViewport({
        width:1920,
        height:1080
    })    //通过screenshot方法完成截屏,并且保存在指定的 path 中
    await page.screenshot({ path: "nba.png" });    //最后关闭整个‘浏览器‘
    browser.close();
})();

过程如下:

demo-通过搜索引擎拉取图片

上面我们展示了 puppeteer一个基础的 demo 完整实例,但是它更强大的地方还有很多,不仅支持在网页上点击,还可以填写表单,读取数据。大家可以去官方 api 查看,传送链接

接下来开始我们下一个 demo,这个示例我们完成一个在搜索引擎中爬取我们想要的图片并保存到本地的功能。来更进一步的了解这个强大的工具。

  • 我们的任务是在搜狗图片中爬取关键词为“NBA”的图片,并且保存在我们当前的 imgs 目录下。

那么核心的关键点就在于输入我们的关键词并且跳转到对应的列表页面,然后爬取内容中所有的 img 标签,并将其保存在我们制定的目录中。接下来我们详细剖析。

通过查看Puppeteer API,可以找到定义点击的函数和聚焦的函数:

page.click(selector[, options])
page.focus(selector);

以上selector 一个选择器来指定要点击的元素。如果多个元素满足,那么默认选择第一个。 这不正好满足了我们前面的逻辑,输入框聚焦和点击,那么怎么输入关键词呢?

For finer control, you can use keyboard.down, 
keyboard.up, and keyboard.sendCharacter to manually 
fire events as if they were generated from a real keyboard.

可以看到我们可以通过 page.keyboard.sendCharacter 来输入我们自己的文字

正好,这样子我们就满足了我们前期的条件,那么完整的代码如下

const puppeteer = require("puppeteer");
(async ()=>{    const brower = await puppeteer.launch();    const page = await brower.newPage();
    await page.goto("http://pic.sogou.com/");
    await page.setViewport({
        width:1920,
        height:1080
    })    //上面的代码和之前是一样的,不同是下面几句
    //
    await page.focus("#form_querytext");
    await page.keyboard.sendCharacter("nba");
    await page.click("#searchBtn")     await page.waitFor(1000);    //监听页面 load 完成
    page.on('load',async ()=>{        console.log("page loaded");        const srcs = await page.evaluate(()=> {            const images = document.querySelectorAll("img.img-hover");            return Array.prototype.map.call(images,img=>img.src)
        })        //遍历图片并且保存
        srcs.forEach(async (src)=> {            console.log(src)            const ext = path.extname(src) ? path.extname(src):".jpg";            const file = path.join('./imgs',`${Date.now()}${ext}`)
            http.get(src,res=>{
                res.pipe(fs.createWriteStream(file)).on('finish',(err)=>{                    if(err){                        console.log(err)
                    } else {                        console.log("done")
                    }
                })
            })
        })
        await brower.close()
    })
})()

我们可以看到上面的流程就像我们正常浏览网页一样,而不是以前那种在 http response 中去抓取内容,这样子对于现在的很多懒加载页面或者前端渲染来讲我们都能成功的爬取到我们想要的内容。

更多的官方 demo 例子我们可以去https://try-puppeteer.appspot.com/编辑查看。

目前 puppeteer在爬虫和前端自动化测试上使用也日益增大,大家可以去官方 API 文档查看它的更多功能!大家也可以结合自己的需求/业务场景,充分挖掘Puppeteer功能。

网易云免费体验馆,0成本体验20+款云产品!

更多网易研发、产品、运营经验分享请访问网易云社区

相关文章:
【推荐】 分布式存储系统可靠性系列一:如何估算
【推荐】 常用数据清洗方法大盘点
【推荐】 【你离硅谷只差一步】网易中国创业家大赛项目火热征集中

Puppeteer入门初探的更多相关文章

  1. Thrift入门初探--thrift安装及java入门实例

    什么是thrift? 简单来说,是Facebook公布的一款开源跨语言的RPC框架. 那么问题来了. 什么是RPC框架? RPC全称为Remote Procedure Call,意为远程过程调用. 假 ...

  2. Thrift入门初探(2)--thrift基础知识详解

    昨天总结了thrift的安装和入门实例,Thrift入门初探--thrift安装及java入门实例,今天开始总结一下thrift的相关基础知识. Thrift使用一种中间语言IDL,来进行接口的定义, ...

  3. puppeteer入门

    转自: https://www.jianshu.com/p/a89d8d6c007b 作者: ppCode puppeteer新手入门(chromium下载跳坑) ppCode 关注 2017.12. ...

  4. 【thrift】thrift入门初探--thrift安装及java入门实例

    转载:https://www.cnblogs.com/fingerboy/p/6424248.html 公司的一些平台服务框架底层封装了thrift提供服务,最近项目不是很紧,于是研究了一下,刚刚入门 ...

  5. 【PUPPETEER】初探之执行JavaScript方法(六)

    一.知识点 page.evaluate() document.querySelector().value = ''; 二.解析知识点 page.evaluate(),查看puppeteer 的api ...

  6. 【PUPPETEER】初探之拖拽操作(五)

    一.知识点 page.mouse elementHandle.boundingBox() ignoreDefaultArgs:['--enable-automation']   waitUntil 二 ...

  7. 【PUPPETEER】初探之原生frame切换(四)

    一.知识点 page.frames() 使用frame.url() 获取framed的url x.getAttribute('x') 获取元素内值 二.实例 问:什么是iframe? 答:iframe ...

  8. 【PUPPETEER】初探之获取元素文本值(三)

    一.知识点 page.$eval(selector, pageFunction[, ...args]) page.$$eval(selector, pageFunction[, ...args]) i ...

  9. 【PUPPETEER】初探之元素获取(二)

    一.涉及的知识点 如何使用css selector 常用元素获取 $ 元素选择 type (api 输入) click (api 点击) 二.学习网址 https://github.com/Googl ...

随机推荐

  1. Filebeat 5.x 日志收集器 安装和配置

    Filebeat 5.x版本 风来了.fox 1.下载和安装 https://www.elastic.co/downloads/beats/filebeat 这里选择 LINUX 64-BIT 即方式 ...

  2. sleep(0)作用

    假设现在是 2008-4-7 12:00:00.000,如果我调用一下 Thread.Sleep(1000) ,在 2008-4-7 12:00:01.000 的时候,这个线程会 不会被唤醒?某人的代 ...

  3. [转载]Sleep(x)的使用和sleep(0)作用解析

    链接:http://blog.csdn.net/m_leonwang/article/details/28434383 假设现在是 2012-12-16 3:37:40,如果我调用一下 Thread. ...

  4. java代码输入流篇2

    总结: 方法.和之前的有不同,但是名字太长了+++++ package com.aini; import java.io.*; public class ghd { public static voi ...

  5. JavaScript组合模式---引入

    首先:使用一个例子来引入组合模式,需求为(1)有一个学校有2个班(一班,二班)(2)每个班级分2个小组(一班一组,一班二组,二班一组,二班二组)(3)学校计算机教室有限,每一个小组分着来上课 然后:根 ...

  6. Eclipse中classpath和deploy assembly的文件位置

    classpath的配置信息存储在工程根目录下的.classpath文件 deploy assembly配置信息存储在工程目录下的.settings\org.eclipse.wst.common.co ...

  7. java 多线程系列基础篇(二)

    概要 本章,我们学习“常用的实现多线程的2种方式”:Thread 和 Runnable.之所以说是常用的,是因为通过还可以通过java.util.concurrent包中的线程池来实现多线程.关于线程 ...

  8. 每天一道算法题(14)——N个降序数组,找到最大的K个数

     题目: 假定有20个有序数组,每个数组有500个数字,降序排列,数字类型32位uint数值,现在需要取出这10000个数字中最大的500个. 思路 (1).建立大顶堆,维度为数组的个数,这里为20( ...

  9. rm 删除文件或目录

    rm命令可以删除一个目录中的一个或多个文件或目录,也可以将某个目录及其下属的所有文件及其子目录均删除掉.对于链接文件,只是删除整个链接文件,而原有文件保持不变. 注意:使用rm命令要格外小心.因为一旦 ...

  10. java中用正则表达式判断中文字符串中是否含有英文或者数字

    public static boolean includingNUM(String str)throws  Exception{ Pattern p  = Pattern.compile(" ...