官方文档

https://miyakogi.github.io/pyppeteer/reference.html#mouse-class

启动pyppteer

import asyncio
from pyppeteer import launch async def main():
# headless参数设为False,则变成有头模式
browser = await launch(
{'headless': False}
) # 打开一个页面
page = await browser.newPage() # 超时间见 10000 毫秒
res = await page.goto('https://www.cnblogs.com/guyouyin123/p/12690418.html', options={'timeout': 10000})
# 等待
await asyncio.sleep(2) print(await page.content()) # 返回html代码
resp_headers = res.headers # 响应头
resp_status = res.status # 响应状态 # 程序启动入口
asyncio.get_event_loop().run_until_complete(main())

切图

# 设置页面视图大小
await page.setViewport(viewport={'width': 1280, 'height': 800})
# 是否启用JS,enabled设为False,则无渲染效果
await page.setJavaScriptEnabled(enabled=True)
# 超时间见 10000 毫秒
res = await page.goto('https://www.cnblogs.com/guyouyin123/p/12690418.html', options={'timeout': 10000})
# 等待
await asyncio.sleep(2) # 截图 保存图片
await page.screenshot({'path': 'cnblog.png'})

获取响应头,响应头状态,cookies

async def main():
# headless参数设为False,则变成有头模式
browser = await launch(
{'headless': False}
)
# 打开一个页面
page = await browser.newPage() # 超时间见 10000 毫秒
res = await page.goto('https://www.cnblogs.com/guyouyin123/p/12690418.html', options={'timeout': 10000})
# 等待
await asyncio.sleep(2)
resp_headers = res.headers # 响应头
resp_status = res.status # 响应状态
cookies = page.cookies() print(resp_headers)
print(resp_status)
print(page.cookies()) # 程序启动入口
asyncio.get_event_loop().run_until_complete(main())

获取当前页面标题

print(await page.title())

获取页面html

import asyncio
from pyppeteer import launch async def main():
# headless参数设为False,则变成有头模式
browser = await launch(
{'headless': False}
)
# 打开一个页面
page = await browser.newPage()
# 是否启用JS,enabled设为False,则无渲染效果
await page.setJavaScriptEnabled(enabled=True) # 超时间见 10000 毫秒
res = await page.goto('https://www.cnblogs.com/guyouyin123/p/12690418.html', options={'timeout': 10000})
# 等待
await asyncio.sleep(2) print(await page.content()) # 返回html代码

第一种:获取整个页面html

 res = await page.goto('https://www.cnblogs.com/guyouyin123/p/12690418.html', options={'timeout': 10000})
# 等待
await asyncio.sleep(2) print(await page.content()) # 返回html代码

第二种:只获取文本

res = await page.goto('https://www.cnblogs.com/guyouyin123/p/12690418.html', options={'timeout': 10000})
# 等待
await asyncio.sleep(2)
content = await page.evaluate(pageFunction='document.body.textContent', force_expr=True)
print(content)

注入JS,控制上下滚动

res = await page.goto('https://www.cnblogs.com/guyouyin123/p/12690418.html', options={'timeout': 10000})
# 等待
await asyncio.sleep(2)
# 滑到底部
await page.evaluate('window.scrollBy(0, document.body.scrollHeight)') # js
window.scrollTo(0,100) # 向下滑动100
window.scrollTo(0,500) # 向下滑动500
window.scrollTo(0,document.body.scrollHeight) # 滑到底部
window.scrollTo(0,document.body.scrollHeight-500) # 滑到-500

选择器

Page.querySelector()  # CSS选择器
Page.querySelectorAll() # CSS选择器选所有
Page.xpath() # xpath选择器 # 简写方式为:
Page.J(), Page.JJ(), and Page.Jx()

获取元素内部的文本、属性

res = await page.goto('https://www.cnblogs.com/guyouyin123/p/12690418.html', options={'timeout': 10000})
# 等待
await asyncio.sleep(2) await page.evaluate('window.scrollBy(0, document.body.scrollHeight)') # 方式一:获取h1标签内容--执行JS方式
element = await page.querySelector('h1')
title = await page.evaluate('(element) => element.textContent', element) # 方式二:获取文本
element = await page.querySelector('h1')
title = await (await item.getProperty('textContent')).jsonValue() # 方式三:获取属性src,href
element = await page.querySelector('h1')
title_link = await (await item.getProperty('href')).jsonValue()

get_html

async def get_html(url):
browser = await pyppeteer.launch(headless=True, args=['--no-sandbox'])
page = await browser.newPage()
res = await page.goto(url, options={'timeout': 3000})
data = await page.content()
title = await page.title()
resp_cookies = await page.cookies() # cookie
resp_headers = res.headers # 响应头
resp_status = res.status # 响应状态
print(data)
print(title)
print(resp_headers)
print(resp_status)
return xxx

模拟输入,鼠标点击

# 模拟输入 账号密码  {'delay': rand_int()} 为输入时间
await page.type('#fm-login-id', "用户名")
await page.type('#fm-login-password', "密码", ) await page.waitFor(1000) # 等待时间
await page.click("#J_SubmitStatic") # 点击

taobao登录

import asyncio
from pyppeteer import launch async def main():
# headless参数设为False,则变成有头模式
browser = await launch(
{'headless': False}
)
# 打开一个页面
page = await browser.newPage()
await page.setViewport(viewport={'width': 1280, 'height': 800}) res = await page.goto('https://login.taobao.com/', options={'timeout': 10000})
await page.type('#fm-login-id', "123456")
await page.type('#fm-login-password', "aaa", )
await page.waitFor(1000) # 等待时间 slider = await page.querySelector('#nc_1_n1z') # 是否有滑块
if slider:
try:
print('有滑块')
await page.hover('#nc_1_n1z') # 不同场景的验证码模块能名字不同。
await page.mouse.down()
await page.mouse.move(2000, 0, {'delay': random.randint(1000, 2000)})
await page.mouse.up()
except Exception as e:
print(e)
input('验证失败,人工登录:')
else:
print('没有滑块')
input() await page.click("#login-form > div.fm-btn > button") # 点击登录
# 程序启动入口
asyncio.get_event_loop().run_until_complete(main())

taobao修改检测浏览器

await page.evaluate(
'''() =>{ Object.defineProperties(navigator,{ webdriver:{ get: () => false } }) }''') # 以下为插入中间js,将淘宝会为了检测浏览器而调用的js修改其结果。
await page.evaluate('''() =>{ window.navigator.chrome = { runtime: {}, }; }''')
await page.evaluate('''() =>{ Object.defineProperty(navigator, 'languages', { get: () => ['en-US', 'en'] }); }''')
await page.evaluate('''() =>{ Object.defineProperty(navigator, 'plugins', { get: () => [1, 2, 3, 4, 5,6], }); }''') # 使用type选定页面元素,并修改其数值,用于输入账号密码,修改的速度仿人类操作,因为有个输入速度的检测机制
# 因为 pyppeteer 框架需要转换为js操作,而js和python的类型定义不同,所以写法与参数要用字典,类型导入
await page.type('.J_UserName', username, {'delay': input_time_random() - 50})
await page.type('#J_StandardPwd input', pwd, {'delay': input_time_random()})
# await page.screenshot({'path': './headless-test-result.png'}) # 截图测试 def input_time_random():
return random.randint(100, 151)

鼠标事件

.click()  # 点击按钮
.down() # 按下按钮
.up() # 释放按钮
.move() # 移动光标

键盘事件

您可以使用down(),up()和 sendCharacter()手动触发事件,就好像事件是由真实键盘生成的一样。

await page.keyboard.press('ArrowLeft')

await page.keyboard.down('Shift')
for i in ' World':
await page.keyboard.press('ArrowLeft')
await page.keyboard.up('Shift') await page.keyboard.press('Backspace')
# Result text will end up saying 'Hello!'.

按下键盘A:

await page.keyboard.down('Shift')
await page.keyboard.press('KeyA')
await page.keyboard.press('Enter')
await page.keyboard.up('Shift') 注意
修饰键确实会影响down()。按住shift 将以大写形式键入文本。 参数:
key(str)–要按键的名称,例如ArrowLeft。
options(dict)–选项可以具有text字段,如果指定了此选项,则使用此文本生成输入事件。

使用ip代理ua

import asyncio
from pyppeteer import launch async def register():
browser = await launch({
'headless': False,
# 代理ip
'args': ['--proxy-server=47.105.111.124:15525', ]
})
page = await browser.newPage()
await page.setUserAgent(
'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36') asyncio.get_event_loop().run_until_complete(register()) # 更多参数
args: [
'--disable-setuid-sandbox',
'--no-sandbox',
'--proxy-server=10.24.51.125:8411',
'--ignore-certificate-errors',
'--window-size=375,812',
'--remote-debugging-port=9222'
],

pyppteer下的更多相关文章

  1. C++程序结构---1

    C++ 基础教程Beta 版 原作:Juan Soulié 翻译:Jing Xu (aqua) 英文原版 本教程根据Juan Soulie的英文版C++教程翻译并改编. 本版为最新校对版,尚未定稿.如 ...

  2. Android SwipeRefreshLayout 下拉刷新——Hi_博客 Android App 开发笔记

    以前写下拉刷新 感觉好费劲,要判断ListView是否滚到顶部,还要加载头布局,还要控制 头布局的状态,等等一大堆.感觉麻烦死了.今天学习了SwipeRefreshLayout 的用法,来分享一下,有 ...

  3. IE6、7下html标签间存在空白符,导致渲染后占用多余空白位置的原因及解决方法

    直接上图:原因:该div包含的内容是靠后台进行print操作,输出的.如果没有输出任何内容,浏览器会默认给该空白区域添加空白符.在IE6.7下,浏览器解析渲染时,会认为空白符也是占位置的,默认其具有字 ...

  4. Ubuntu下使用nvm

    写在前面:刚写着写着博客就跨年了,希望新的一年大家万事如意,一切向"前"看! 安装 wget -qO- https://raw.githubusercontent.com/crea ...

  5. Cmder--Windows下命令行利器

    cmder cmder是一个增强型命令行工具,不仅可以使用windows下的所有命令,更爽的是可以使用linux的命令,shell命令. 安装包 安装包链接 下载后,直接解压即用. 修改命令提示符λ为 ...

  6. NodeJs在Linux下使用的各种问题

    环境:ubuntu16.04 ubuntu中安装NodeJs 通过apt-get命令安装后发现只能使用nodejs,而没有node命令 如果想避免这种情况请看下面连接的这种安装方式: 拓展见:Linu ...

  7. GreenDao 数据库:使用Raw文件夹下的数据库文件以及数据库升级

    一.使用Raw文件夹下的数据库文件 在使用GreenDao框架时,数据库和数据表都是根据生成的框架代码来自动创建的,从生成的DaoMaster中的OpenHelper类可以看出: public sta ...

  8. [APUE]UNIX进程的环境(下)

    一.共享库 共享库使得可执行文件中不再需要包含常用的库函数,而只需在所有进程都可存取的存储区中保存这种库例程的一个副本.程序第一次执行的时候或第一次调用某个库函数的时候,用动态链接方法将程序与共享库函 ...

  9. ASP.NET Aries 入门开发教程4:查询区的下拉配置

    背景: 今天去深圳溜达了一天,刚回来,看到首页都是微软大法好,看来离.NET的春天就差3个月了~~ 回到正题,这篇的教程讲解下拉配置. 查询区的下拉配置: 1:查询框怎么配置成下拉? 在配置表头:格式 ...

随机推荐

  1. js输入框练习

    这个就是一个输入框的小练习(也是第一次写这个东西) <!DOCTYPE html> <html lang="en"> <head> <me ...

  2. Java集合:ArrayList (JDK1.8 源码解读)

    ArrayList ArrayList几乎是每个java开发者最常用也是最熟悉的集合,看到ArrayList这个名字就知道,它必然是以数组方式实现的集合 关注点 说一下ArrayList的几个特点,也 ...

  3. 2019-2020-1 20199308《Linux内核原理与分析》第四周作业

    <Linux内核分析> 第三章 MenuOS的构造 3.1 Linux内核源代码简介 操作系统的"两把宝剑" 中断上下文:保存现场和恢复现场 进程上下文 目录结构 ar ...

  4. Nagios基本搭建

    Nagios简述: 1.一款用来监视系统和网络的开源软件 2.利用其从多的插件实现对本机和远端服务的监控 3.当被监控对象异常时,回及时向管理员警告 4.提供一批预设好的监控插件,用户可以直接调用 5 ...

  5. java中Locks的使用

    文章目录 Lock和Synchronized Block的区别 Lock interface ReentrantLock ReentrantReadWriteLock StampedLock Cond ...

  6. 多线程并行请求问题及SplashActivity预加载问题解决方案

    1. 问题描述(一): 现有3个线程thread1, thread2, thread3.这3个线程是并发执行的,当着3个线程都执行完成以后,需要执行一个finish()事件. 1.1 实现方法: /* ...

  7. CSS样式2

    1.css重用 <style> .cl{ ... } .c2{ ... } .c{ ... } </style> <div class='c c2'></di ...

  8. 从零开始创建CocoaPods私有库

    为什么要创建CocoaPods私有库? 避免重复的造轮子 节约时间,方便管理自己的代码 精益求精 创建CocoaPods私有库 1.创建私有仓库工程 执行命令pod lib create SmartB ...

  9. mac OS 安装淘宝npm镜像

    淘宝npm镜像官网 https://npm.taobao.org/ 在终端输入 npm install -g cnpm --registry=https://registry.npm.taobao.o ...

  10. IT服务,共享经济的下一个风口?

    前两天,在上千名CIO参加.释放10亿采购需求的2017华南CIO大会暨信息技术交易会上,一款"一站式IT工程师共享平台"成为大会关注焦点--这就是神州数码旗下的神州邦邦. 其实最 ...