python-pyppeteer模块使用汇总

一.简单代码示例

import asyncio

from pyppeteer import launch

async def main():

    browser = await launch()

    page = await browser.newPage()    #打开一个新页面

    await page.goto('https://www.baidu.com/')  #访问百度

    await page.screenshot({'path': 'baidu.png'})  #截图并存储

    await browser.close()

asyncio.get_event_loop().run_until_complete(main())

二.page对象的方法

await page.方法

1.设置相关

setUserAgent(str)

设置UserAgent

setCookie（cookie1, cookie2.......）

设置cookie

cookies 应该是包含这些字段的字典：

name（str）：必填

value（str）：必填

url （STR）

domain （STR）

path （STR）

expires （数字）：Unix时间，以秒为单位

httpOnly （布尔）

secure （布尔）

sameSite（str）：'Strict'或'Lax'

2.页面相关

goto(url)

访问网页

reload()

页面加载完毕

goBack()/goForward()

页面后退/页面前进

3.执行js

evaluate(js_str)

对于某个元素执行js

4.截图

screenshot(dict)

dict中key

path（str）：保存图像的文件路径。屏幕截图类型将从文件扩展名中推断出来。 #基本上写个这个就够了

type（str）：指定屏幕截图类型，可以是jpeg或 png。默认为png。

quality（int）：图像的质量，在0-100之间。不适用于png图像。

fullPage（bool）：如果为true，请截取完整的可滚动页面。默认为False。

clip（字典）：指定页面剪切区域的对象。此选项应包含以下字段：

x （int）：剪辑区域左上角的x坐标。

y （int）：剪辑区域左上角的y坐标。

width （int）：剪切区域的宽度。

height （int）：剪切区域的高度。

omitBackground （bool）：隐藏默认的白色背景并允许捕获具有透明度的屏幕截图。

5.保存pdf

pdf(dict)

返回：返回生成的PDF bytes对象。

path （str）：保存PDF的文件路径。

scale（float）：网页渲染的比例，默认为1。

displayHeaderFooter（bool）：显示页眉和页脚。默认为False。

headerTemplate（str）：打印标题的HTML模板。应该是有效的HTML标记与以下类。

date：格式化的打印日期

title：文件名

url：文件位置

pageNumber：当前页码

totalPages：文档中的总页数

footerTemplate（str）：打印页脚的HTML模板。应该使用相同的模板headerTemplate。

printBackground（bool）：打印背景图形。默认为 False。

landscape（bool）：纸张方向。默认为False。

pageRanges（字符串）：要打印的纸张范围，例如“1-5,8,11-13”。默认为空字符串，表示所有页面。

format（str）：纸张格式。如果设置，优先于 width或height。默认为Letter。

width （str）：纸张宽度，接受标有单位的值。

height （str）：纸张高度，接受标有单位的值。

margin（字典）：纸张边距，默认为None。

top （str）：上边距，接受标有单位的值。

right （str）：右边距，接受标有单位的值。

bottom （str）：底部边距，接受标有单位的值。

left （str）：左边距，接受标有单位的值。

6.获取内容

content()

页面文本

print(await page.evaluate('document.body.textContent', force_expr=True)) 这样也行

cookies()

页面cookies

title()

标题

7.获取元素

返回都是ElementHandle或者None

print(await page.querySelector('div选择器'))    #获取第一个

print(await page.querySelectorAll("CSS选择器"))  #获取全部

querySelectorEval('css选择器','js_str','前面js需要的参数')  #获取第一个并对其执行js

querySelectorAllEval('css选择器','js_str','前面js需要的参数') #获取全部并对其执行js

await page.xpath('xpath选取器')

8.等待方式

# await page.waitForXPath('h3', timeout=300)

# await page.waitForNavigation(waitUntil="networkidle0")

# await page.waitForFunction('document.getElementByTag("h3")')

# await page.waitForSelector('.t')

# await page.waitFor('document.querySelector("#t")')

# await page.waitForNavigation(waitUntil='networkidle0')

# await page.waitForFunction('document.querySelector("").inner‌Text.length == 7')

9.获取ElementHandle里的属性或者文本

await (await ElementHandle_obj.getProperty('属性')).jsonValue()

await (await ElementHandle_obj.getProperty('textContent')).jsonValue()  #文本

10.与浏览器交互

request_html中render操

可以参考这个应为request_html就是封装了pyppeteer

python-pyppeteer模块使用汇总的更多相关文章

python安装模块方法汇总
方法一: 原文地址: http://blog.csdn.net/cighao/article/details/47860041 在 windows 系统下,只需要输入命令 pip install re ...
Python常见的错误汇总
+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++ 错误: [错误分析]第二个参数必须为类,否则会报TypeError,所以正确的应 ...
Python tkinter模块弹出窗口及传值回到主窗口操作详解
这篇文章主要介绍了Python tkinter模块弹出窗口及传值回到主窗口操作,结合实例形式分析了Python使用tkinter模块实现的弹出窗口及参数传递相关操作技巧,需要的朋友可以参考下本文实例 ...
pyppeteer模块的基本使用
pyppeteer模块的基本使用引言 Selenium 在被使用的时候有个麻烦事,就是环境的相关配置,得安装好相关浏览器,比如 Chrome.Firefox 等等,然后还要到官方网站去下载对应的驱动 ...
Python标准模块--threading
1 模块简介 threading模块在Python1.5.2中首次引入,是低级thread模块的一个增强版.threading模块让线程使用起来更加容易,允许程序同一时间运行多个操作. 不过请注意,P ...
Python的模块引用和查找路径
模块间相互独立相互引用是任何一种编程语言的基础能力.对于“模块”这个词在各种编程语言中或许是不同的,但我们可以简单认为一个程序文件是一个模块,文件里包含了类或者方法的定义.对于编译型的语言,比如C#中 ...
Python Logging模块的简单使用
前言日志是非常重要的,最近有接触到这个,所以系统的看一下Python这个模块的用法.本文即为Logging模块的用法简介,主要参考文章为Python官方文档,链接见参考列表. 另外,Python的H ...
Python标准模块--logging
1 logging模块简介 logging模块是Python内置的标准模块,主要用于输出运行日志,可以设置输出日志的等级.日志保存路径.日志文件回滚等:相比print,具备如下优点: 可以通过设置不同 ...
python基础-模块
一.模块介绍 ...
[Python] 机器学习库资料汇总
声明:以下内容转载自平行宇宙. Python在科学计算领域,有两个重要的扩展模块:Numpy和Scipy.其中Numpy是一个用python实现的科学计算包.包括: 一个强大的N维数组对象Array: ...

随机推荐

javascript对url进行编码和解码
这里总结下JavaScript对URL进行编码和解码的三个方法. 为什么要对URL进行编码和解码只有[0-9[a-Z] $ - _ . + ! * ' ( ) ,]以及某些保留字,才能不经过编码直接 ...
基于windows server 2016和sqlserver 2016 AlwaysOn的群集配置
文档:基于windows server 2016和sqlserver 2...链接:http://note.youdao.com/noteshare?id=4f07c1c3f7d0e32b7631d7 ...
MySQL 有关MHA搭建与切换的几个错误log
1:masterha_check_repl 副本集方面报错 replicates is not defined in the configuration file! 具体信息如下: # /usr/l ...
Linux 版本控制工具之rabbitvcs
原文地址:http://www.robotshell.com/2017/11/04/Linux-%E7%89%88%E6%9C%AC%E6%8E%A7%E5%88%B6%E5%B7%A5%E5%85% ...
OpenLDAP的docker版安装
分为服务器和client的web版. ldap.sh #!/bin/bash -e docker run --name ldap-service -- docker run --name phplda ...
uiautomatorviewer提示Unable to connect to adb. Check if adb is installed correctly解决方法
转自:https://www.jianshu.com/p/c8581a70d1bc 解决方案: 1.打开 "E:\android-sdk_r24.4.1-windows\android-s ...
ReactNative: 使用AppReistry注册类
一.简介每一个应用程序的运行都有一个入口文件或者入口函数,例如iOS中的使用UIApplicationMain类完成入口函数的实现,在React-Native中,AppRegistry类就肩负着这个 ...
Image 鼠标拖拽与鼠标中键的缩放
一.Image在窗体上拖拽,势必会用到鼠标的三个事件(MouseDown,MouseUp,MouseMove),以左键为例,PictureBox为载体 Point mouseDownPoint = n ...
Android框架式编程之ViewModel
一.ViewModel介绍 ViewModel类是被设计用来以可感知生命周期的方式存储和管理 UI 相关数据.ViewModel中数据会一直存活即使 Activity Configuration发生变 ...
微店APP协议简要分析
1.通过抓包软件charles进行抓包,点击微信收款后,抓包内容都是加密处理过 2.加载分析定位这些字段的加密函数. WDTNThorParameterProcessor HTTPBody:task ...

python-pyppeteer模块使用汇总

一.简单代码示例

二.page对象的方法

1.设置相关

setUserAgent(str)

setCookie（cookie1, cookie2.......）

2.页面相关

goto(url)

reload()

goBack()/goForward()

3.执行js

evaluate(js_str)

4.截图

screenshot(dict)

5.保存pdf

pdf(dict)

6.获取内容

content()

cookies()

title()

7.获取元素

8.等待方式

9.获取ElementHandle里的属性或者文本

10.与浏览器交互

python-pyppeteer模块使用汇总的更多相关文章

随机推荐

热门专题