python-pyppeteer模块使用汇总
一.简单代码示例
import asyncio
from pyppeteer import launch
async def main():
browser = await launch()
page = await browser.newPage() #打开一个新页面
await page.goto('https://www.baidu.com/') #访问百度
await page.screenshot({'path': 'baidu.png'}) #截图并存储
await browser.close()
asyncio.get_event_loop().run_until_complete(main())
二.page对象的方法
await page.方法
1.设置相关
setUserAgent(str)
设置UserAgent
setCookie(cookie1, cookie2.......)
设置cookie
cookies 应该是包含这些字段的字典:
name(str):必填
value(str):必填
url (STR)
domain (STR)
path (STR)
expires (数字):Unix时间,以秒为单位
httpOnly (布尔)
secure (布尔)
sameSite(str):'Strict'或'Lax'
2.页面相关
goto(url)
访问网页
reload()
页面加载完毕
goBack()/goForward()
页面后退/页面前进
3.执行js
evaluate(js_str)
对于某个元素执行js
4.截图
screenshot(dict)
dict
中key
path(str):保存图像的文件路径。屏幕截图类型将从文件扩展名中推断出来。 #基本上写个这个就够了
type(str):指定屏幕截图类型,可以是jpeg或 png。默认为png。
quality(int):图像的质量,在0-100之间。不适用于png图像。
fullPage(bool):如果为true,请截取完整的可滚动页面。默认为False。
clip(字典):指定页面剪切区域的对象。此选项应包含以下字段:
x (int):剪辑区域左上角的x坐标。
y (int):剪辑区域左上角的y坐标。
width (int):剪切区域的宽度。
height (int):剪切区域的高度。
omitBackground (bool):隐藏默认的白色背景并允许捕获具有透明度的屏幕截图。
5.保存pdf
pdf(dict)
返回: 返回生成的PDF bytes对象。
path (str):保存PDF的文件路径。
scale(float):网页渲染的比例,默认为1。
displayHeaderFooter(bool):显示页眉和页脚。默认为False。
headerTemplate(str):打印标题的HTML模板。应该是有效的HTML标记与以下类。
date:格式化的打印日期
title:文件名
url:文件位置
pageNumber:当前页码
totalPages:文档中的总页数
footerTemplate(str):打印页脚的HTML模板。应该使用相同的模板headerTemplate。
printBackground(bool):打印背景图形。默认为 False。
landscape(bool):纸张方向。默认为False。
pageRanges(字符串):要打印的纸张范围,例如“1-5,8,11-13”。默认为空字符串,表示所有页面。
format(str):纸张格式。如果设置,优先于 width或height。默认为Letter。
width (str):纸张宽度,接受标有单位的值。
height (str):纸张高度,接受标有单位的值。
margin(字典):纸张边距,默认为None。
top (str):上边距,接受标有单位的值。
right (str):右边距,接受标有单位的值。
bottom (str):底部边距,接受标有单位的值。
left (str):左边距,接受标有单位的值。
6.获取内容
content()
页面文本
print(await page.evaluate('document.body.textContent', force_expr=True)) 这样也行
cookies()
页面cookies
title()
标题
7.获取元素
返回都是ElementHandle
或者None
print(await page.querySelector('div选择器')) #获取第一个
print(await page.querySelectorAll("CSS选择器")) #获取全部
querySelectorEval('css选择器','js_str','前面js需要的参数') #获取第一个并对其执行js
querySelectorAllEval('css选择器','js_str','前面js需要的参数') #获取全部并对其执行js
await page.xpath('xpath选取器')
8.等待方式
# await page.waitForXPath('h3', timeout=300)
# await page.waitForNavigation(waitUntil="networkidle0")
# await page.waitForFunction('document.getElementByTag("h3")')
# await page.waitForSelector('.t')
# await page.waitFor('document.querySelector("#t")')
# await page.waitForNavigation(waitUntil='networkidle0')
# await page.waitForFunction('document.querySelector("").innerText.length == 7')
9.获取ElementHandle里的属性或者文本
await (await ElementHandle_obj.getProperty('属性')).jsonValue()
await (await ElementHandle_obj.getProperty('textContent')).jsonValue() #文本
10.与浏览器交互
可以参考这个应为request_html就是封装了pyppeteer
python-pyppeteer模块使用汇总的更多相关文章
- python安装模块方法汇总
方法一: 原文地址: http://blog.csdn.net/cighao/article/details/47860041 在 windows 系统下,只需要输入命令 pip install re ...
- Python常见的错误汇总
+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++ 错误: [错误分析]第二个参数必须为类,否则会报TypeError,所以正确的应 ...
- Python tkinter模块弹出窗口及传值回到主窗口操作详解
这篇文章主要介绍了Python tkinter模块弹出窗口及传值回到主窗口操作,结合实例形式分析了Python使用tkinter模块实现的弹出窗口及参数传递相关操作技巧,需要的朋友可以参考下 本文实例 ...
- pyppeteer模块的基本使用
pyppeteer模块的基本使用 引言 Selenium 在被使用的时候有个麻烦事,就是环境的相关配置,得安装好相关浏览器,比如 Chrome.Firefox 等等,然后还要到官方网站去下载对应的驱动 ...
- Python标准模块--threading
1 模块简介 threading模块在Python1.5.2中首次引入,是低级thread模块的一个增强版.threading模块让线程使用起来更加容易,允许程序同一时间运行多个操作. 不过请注意,P ...
- Python的模块引用和查找路径
模块间相互独立相互引用是任何一种编程语言的基础能力.对于“模块”这个词在各种编程语言中或许是不同的,但我们可以简单认为一个程序文件是一个模块,文件里包含了类或者方法的定义.对于编译型的语言,比如C#中 ...
- Python Logging模块的简单使用
前言 日志是非常重要的,最近有接触到这个,所以系统的看一下Python这个模块的用法.本文即为Logging模块的用法简介,主要参考文章为Python官方文档,链接见参考列表. 另外,Python的H ...
- Python标准模块--logging
1 logging模块简介 logging模块是Python内置的标准模块,主要用于输出运行日志,可以设置输出日志的等级.日志保存路径.日志文件回滚等:相比print,具备如下优点: 可以通过设置不同 ...
- python基础-模块
一.模块介绍 ...
- [Python] 机器学习库资料汇总
声明:以下内容转载自平行宇宙. Python在科学计算领域,有两个重要的扩展模块:Numpy和Scipy.其中Numpy是一个用python实现的科学计算包.包括: 一个强大的N维数组对象Array: ...
随机推荐
- 图解leetcode —— 128. 最长连续序列
前言: 每道题附带动态示意图,提供java.python两种语言答案,力求提供leetcode最优解. 描述: 给定一个未排序的整数数组,找出最长连续序列的长度. 要求算法的时间复杂度为 O(n). ...
- 这几天加班熬夜把所有Python库整理了一遍,非常全面!
库名称简介 Chardet 字符编码探测器,可以自动检测文本.网页.xml的编码.colorama 主要用来给文本添加各种颜色,并且非常简单易用.Prettytable 主要用于在终端或浏览器端构建格 ...
- leaflet-webpack 入门开发系列六矢量瓦片(附源码下载)
前言 leaflet-webpack 入门开发系列环境知识点了解: node 安装包下载webpack 打包管理工具需要依赖 node 环境,所以 node 安装包必须安装,上面链接是官网下载地址 w ...
- 如何将本地的项目推送到github
一.创建密钥 1.本地终端命令行生成密钥 访问密钥创建的帮助文档:https://help.github.com/en/github/authenticating-to-github/generati ...
- 从源码角度看 PHP 字符串类型转换
PHP 的类型转换是比较方便的,但是越是容易使用的东西,底层的实现越是复杂,而且在使用中像我这样的新手也往往不清楚转换后的结果到底是什么.有时候,对于 Java 这种强类型的语言,使用的时候需要强制进 ...
- UWP 在非UI线程中更新UI
大家都知道,不可以在 其他线程访问 UI 线程,访问 UI 线程包括给 依赖属性设置值.读取依赖属性.调用方法(如果方法里面修改了依赖属性)等.一旦访问UI线程,那么就会报错,为了解决这个问题,需要使 ...
- WebShell代码分析溯源(七)
WebShell代码分析溯源(七) 一.一句话变形马样本 <?php $e = $_REQUEST['e'];$arr = array($_POST['POST'],);array_map(ba ...
- C# .NET的BinaryFormatter、protobuf-net、Newtonsoft.Json以及自己写的序列化方法序列化效率和序列化后的文件体积大小对比
测试结果如下图: 测试结果整理后: 结论: 1.这几个工具中,protobuf-net序列化和反序列化效率是最快的 2.BinaryFormatter和Newtonsoft.Json反序列化慢的比较多 ...
- springcloud~配置中心~对敏感信息加密
简介 RSA非对称加密有着非常强大的安全性,HTTPS的SSL加密就是使用这种方法进行HTTPS请求加密传输的.因为RSA算法会涉及Private Key和Public Key分别用来加密和解密,所以 ...
- Python3如何安装pip工具?
前几天安装Python的时候没有装上pip工具,所以只能现在手动安装了. 首先,访问https://bootstrap.pypa.io/get-pip.py这个网址,然后Ctrl+S将get-pip. ...