一个简单的puppeteer爬虫

const puppeteer = require("puppeteer");

const path = require('path');

const pathToExtension = path.join(__dirname, './chrome-mac/Chromium.app/Contents/MacOS/Chromium');

const conf = {

    headless: false,

    executablePath: pathToExtension,

    defaultViewport: {

        width: 1300,

        height: 900

    },

};

(async () => {

    const browser = await puppeteer.launch(conf)

    const page = await browser.newPage()

    await page.goto('https://www.baidu.com/', {waitUntil: 'networkidle2'});

    //addScriptTag需要加在goto的后面，然后就可以在evaluate里使用jQuery的语法了。

    await page.addScriptTag({

        url: 'https://code.jquery.com/jquery-3.2.1.min.js',

    });

    await page.waitFor('#u1')

    // 可以接收evaluate内部打印的console内容

    page.on('console',msg=>{

            for(let i =0;i<msg.args().length;i++){

                console.log(`${i}: ${msg.args([i])}`)

            }

    })

     const result = await page.evaluate(() => {

        let data = []; // 初始化空数组来存储数据

        let elements = $("#u1"); // 获取所有元素

        for (let element of elements){

            let title = element.innerText; // 获取标题

            let url = element.href;//获取网址

            data.push({title,url}); // 存入数组

        }

        return data;

    });

    console.log(result);

    await page.waitFor(3000);

    await browser.close();

})();

一个简单的puppeteer爬虫的更多相关文章

一个简单的python爬虫程序
python|网络爬虫概述这是一个简单的python爬虫程序,仅用作技术学习与交流,主要是通过一个简单的实际案例来对网络爬虫有个基础的认识. 什么是网络爬虫简单的讲,网络爬虫就是模拟人访问web ...
python实现的一个简单的网页爬虫
学习了下python,看了一个简单的网页爬虫:http://www.cnblogs.com/fnng/p/3576154.html 自己实现了一个简单的网页爬虫,获取豆瓣的最新电影信息. 爬虫主要是获 ...
Java实现一个简单的网络爬虫
Java实现一个简单的网络爬虫 import java.io.BufferedReader; import java.io.BufferedWriter; import java.io.FileWri ...
一个简单的C#爬虫程序
这篇这篇文章主要是展示了一个C#语言如何抓取网站中的图片.实现原理就是基于http请求.C#给我们提供了HttpWebRequest和WebClient两个对象,方便发送请求获取数据,下面看如何实 1 ...
做一个简单的scrapy爬虫
前言: 做一个简单的scrapy爬虫,带大家认识一下创建scrapy的大致流程.我们就抓取扇贝上的单词书,python的高频词汇. 步骤: 一,新建一个工程scrapy_shanbay 二,在工程中中 ...
一个简单的python爬虫,爬取知乎
一个简单的python爬虫,爬取知乎主要实现爬取一个收藏夹里所有问题答案下的图片文字信息暂未收录,可自行实现,比图片更简单具体代码里有详细注释,请自行阅读项目源码: # -*- cod ...
【Python学习笔记三】一个简单的python爬虫
这里写爬虫用的requests插件 1.一般那3.x版本的python安装后都带有相应的安装文件,目录在python安装目录的Scripts中,如下: 2.将scripts的目录配置到环境变量pa ...
一个简单的python爬虫，以豆瓣妹子“http://www.dbmeizi.com/category/2?p= ”为例
本想抓取网易摄影上的图,但发现查看html源代码时找不到图片的url,但firebug却能定位得到.(不知道为什么???) 目标是抓取前50页的爆乳图,代码如下: import urllib2,url ...
用Nodejs做一个简单的小爬虫
Nodejs将JavaScript语言带到了服务器端,作为js主力用户的前端们,因此获得了服务器端的开发能力,但除了用express搭建一个博客外,还有什么好玩的项目可以做呢?不如就做一个网络爬虫吧. ...

随机推荐

【es6】将2个数组合并为一个数组
//第一种一个数组中的值为key 一个数组中的值为value let arr1 = ['内存','颜色','尺寸']; let arr2 = [1,2,3]; let temp = arr1.map ...
基于【 centos7】五 || GitLab环境搭建
一.基于Docker部署GitLab环境搭建 1.下载镜像 docker pull beginor/gitlab-ce:11.0.1-ce.0 2.创建GitLab 的配置 (etc) . 日志 (l ...
windows的一些常用指令
持续更新中..... 1.清除系统内 DNS 的缓冲 : nslookup baidu.com 2.修改hosts文件 : 位置运行 -> C:/windows/system32/ ...
iOS7 新后台及下载SDK介绍
在iOS7以前的系统中,App默认是不能后台运行的,如果要后台运行,可以采用以下两类方法: (1)使用beginBackgroundTaskWithExpirationHandler函数,向系统申请一 ...
【Zookeeper】应用场景概述
一.数据发布与订阅(配置中心) 二.负载均衡三.命名服务(Naming Service) 四.分布式通知/协调五.集群管理与Master选举六.分布式锁七.分布式事务一.数据发布与订阅(配置 ...
ArrayList 和 Vector 的区别是什么？（未完成）
ArrayList 和 Vector 的区别是什么?(未完成)
python3 random
一.random 1.生成伪随机数 2.伪随机数是可预测的,严格意义上不具有随机性质,通常用数学公式的方法(比如统计分布,平方取中等)获得 3.正如数列需要有首项,产生伪随机数需要一个初值用来计算整个 ...
java学习笔记15-封装
把属性(成员变量)设置为私有(private),把方法设置为共有的(public),假如外界想要得到或者改变某个属性,只能通过方法来办到,这其实是封装的思想之一. 新建一个Student类,这个类有几 ...
nginx 缓存区太小导致后台Connection reset by peer 报错
问题概述:图片bit 64生成数据流太大,导致小程序分享弹窗的二维码图片生成失败后台报错: 排查: Client------>nginx------->h5------>nginx ...
python 多列表生成新的列表[[a,1],[b,2]]与[[a,b],[1,2]]
(1)将各个列表组合成一个新列表,不做任何数据的改变示例: test1 = [1,2] test2 = [1,3] test3 = [1,4] 要求生成新的结果:test = [[1,2],[1,3 ...

一个简单的puppeteer爬虫

一个简单的puppeteer爬虫的更多相关文章

随机推荐

热门专题