官方文档
启动pyppteer
切图
获取响应头，响应头状态，cookies
获取当前页面标题
获取页面html
- 第一种：获取整个页面html
- 第二种：只获取文本
注入JS，控制上下滚动
选择器
- 获取元素内部的文本、属性
- get_html
模拟输入，鼠标点击
taobao登录
- taobao修改检测浏览器
鼠标事件
键盘事件
使用ip代理ua

官方文档

https://miyakogi.github.io/pyppeteer/reference.html#mouse-class

启动pyppteer

import asyncio

from pyppeteer import launch

async def main():

    # headless参数设为False，则变成有头模式

    browser = await launch(

        {'headless': False}

    )

    # 打开一个页面

    page = await browser.newPage()

    # 超时间见 10000 毫秒

    res = await page.goto('https://www.cnblogs.com/guyouyin123/p/12690418.html', options={'timeout': 10000})

    # 等待

    await asyncio.sleep(2)

    print(await page.content())  # 返回html代码

    resp_headers = res.headers  # 响应头

    resp_status = res.status  # 响应状态

# 程序启动入口

asyncio.get_event_loop().run_until_complete(main())

切图

# 设置页面视图大小

await page.setViewport(viewport={'width': 1280, 'height': 800})

# 是否启用JS，enabled设为False，则无渲染效果

await page.setJavaScriptEnabled(enabled=True)

# 超时间见 10000 毫秒

res = await page.goto('https://www.cnblogs.com/guyouyin123/p/12690418.html', options={'timeout': 10000})

# 等待

await asyncio.sleep(2)

# 截图 保存图片

await page.screenshot({'path': 'cnblog.png'})

获取响应头，响应头状态，cookies

async def main():

    # headless参数设为False，则变成有头模式

    browser = await launch(

        {'headless': False}

    )

    # 打开一个页面

    page = await browser.newPage()

    # 超时间见 10000 毫秒

    res = await page.goto('https://www.cnblogs.com/guyouyin123/p/12690418.html', options={'timeout': 10000})

    # 等待

    await asyncio.sleep(2)

	resp_headers = res.headers  # 响应头

    resp_status = res.status  # 响应状态

    cookies = page.cookies()

    print(resp_headers)

    print(resp_status)

    print(page.cookies())

# 程序启动入口

asyncio.get_event_loop().run_until_complete(main())

获取当前页面标题

print(await page.title())

获取页面html

import asyncio

from pyppeteer import launch

async def main():

    # headless参数设为False，则变成有头模式

    browser = await launch(

        {'headless': False}

    )

     # 打开一个页面

    page = await browser.newPage()

	# 是否启用JS，enabled设为False，则无渲染效果

    await page.setJavaScriptEnabled(enabled=True)

    # 超时间见 10000 毫秒

    res = await page.goto('https://www.cnblogs.com/guyouyin123/p/12690418.html', options={'timeout': 10000})

    # 等待

    await asyncio.sleep(2)

    print(await page.content())  # 返回html代码

第一种：获取整个页面html

 res = await page.goto('https://www.cnblogs.com/guyouyin123/p/12690418.html', options={'timeout': 10000})

 # 等待

 await asyncio.sleep(2)

print(await page.content())  # 返回html代码

第二种：只获取文本

res = await page.goto('https://www.cnblogs.com/guyouyin123/p/12690418.html', options={'timeout': 10000})

# 等待

await asyncio.sleep(2)

content = await page.evaluate(pageFunction='document.body.textContent', force_expr=True)

print(content)

注入JS，控制上下滚动

res = await page.goto('https://www.cnblogs.com/guyouyin123/p/12690418.html', options={'timeout': 10000})

# 等待

await asyncio.sleep(2)

# 滑到底部

await page.evaluate('window.scrollBy(0, document.body.scrollHeight)')

# js

window.scrollTo(0,100)  # 向下滑动100

window.scrollTo(0,500)  # 向下滑动500

window.scrollTo(0,document.body.scrollHeight)  # 滑到底部

window.scrollTo(0,document.body.scrollHeight-500) # 滑到-500

选择器

Page.querySelector()  # CSS选择器

Page.querySelectorAll()  # CSS选择器选所有

Page.xpath()  # xpath选择器

# 简写方式为：

Page.J(), Page.JJ(), and Page.Jx()

获取元素内部的文本、属性

res = await page.goto('https://www.cnblogs.com/guyouyin123/p/12690418.html', options={'timeout': 10000})

# 等待

await asyncio.sleep(2)

await page.evaluate('window.scrollBy(0, document.body.scrollHeight)')

# 方式一：获取h1标签内容--执行JS方式

element = await page.querySelector('h1')

title = await page.evaluate('(element) => element.textContent', element)

# 方式二：获取文本

element = await page.querySelector('h1')

title = await (await item.getProperty('textContent')).jsonValue()

# 方式三：获取属性src,href

element = await page.querySelector('h1')

title_link = await (await item.getProperty('href')).jsonValue()

get_html

async def get_html(url):

    browser = await pyppeteer.launch(headless=True, args=['--no-sandbox'])

    page = await  browser.newPage()

    res = await page.goto(url, options={'timeout': 3000})

    data = await page.content()

    title = await page.title()

    resp_cookies = await page.cookies()  # cookie

    resp_headers = res.headers  # 响应头

    resp_status = res.status  # 响应状态

    print(data)

    print(title)

    print(resp_headers)

    print(resp_status)

    return xxx

模拟输入，鼠标点击

# 模拟输入 账号密码  {'delay': rand_int()} 为输入时间

await page.type('#fm-login-id', "用户名")

await page.type('#fm-login-password', "密码", )

await page.waitFor(1000) # 等待时间

await page.click("#J_SubmitStatic")  # 点击

taobao登录

import asyncio

from pyppeteer import launch

async def main():

    # headless参数设为False，则变成有头模式

    browser = await launch(

        {'headless': False}

    )

    # 打开一个页面

    page = await browser.newPage()

    await page.setViewport(viewport={'width': 1280, 'height': 800})

    res = await page.goto('https://login.taobao.com/', options={'timeout': 10000})

    await page.type('#fm-login-id', "123456")

    await page.type('#fm-login-password', "aaa", )

    await page.waitFor(1000)  # 等待时间

    slider = await page.querySelector('#nc_1_n1z') # 是否有滑块

    if slider:

        try:

            print('有滑块')

            await page.hover('#nc_1_n1z')  # 不同场景的验证码模块能名字不同。

            await page.mouse.down()

            await page.mouse.move(2000, 0, {'delay': random.randint(1000, 2000)})

            await page.mouse.up()

        except Exception as e:

            print(e)

            input('验证失败，人工登录：')

    else:

        print('没有滑块')

        input()

    await page.click("#login-form > div.fm-btn > button")  # 点击登录

# 程序启动入口

asyncio.get_event_loop().run_until_complete(main())

taobao修改检测浏览器

await page.evaluate(

        '''() =>{ Object.defineProperties(navigator,{ webdriver:{ get: () => false } }) }''')  # 以下为插入中间js，将淘宝会为了检测浏览器而调用的js修改其结果。

await page.evaluate('''() =>{ window.navigator.chrome = { runtime: {},  }; }''')

await page.evaluate('''() =>{ Object.defineProperty(navigator, 'languages', { get: () => ['en-US', 'en'] }); }''')

await page.evaluate('''() =>{ Object.defineProperty(navigator, 'plugins', { get: () => [1, 2, 3, 4, 5,6], }); }''')

# 使用type选定页面元素，并修改其数值，用于输入账号密码，修改的速度仿人类操作，因为有个输入速度的检测机制

# 因为 pyppeteer 框架需要转换为js操作，而js和python的类型定义不同，所以写法与参数要用字典，类型导入

await page.type('.J_UserName', username, {'delay': input_time_random() - 50})

await page.type('#J_StandardPwd input', pwd, {'delay': input_time_random()})

# await page.screenshot({'path': './headless-test-result.png'})    # 截图测试

def input_time_random():

    return random.randint(100, 151)

鼠标事件

.click()  # 点击按钮

.down()   # 按下按钮

.up()     # 释放按钮

.move()   # 移动光标

键盘事件

您可以使用down()，up()和 sendCharacter()手动触发事件，就好像事件是由真实键盘生成的一样。

await page.keyboard.press('ArrowLeft')

await page.keyboard.down('Shift')

for i in ' World':

    await page.keyboard.press('ArrowLeft')

await page.keyboard.up('Shift')

await page.keyboard.press('Backspace')

# Result text will end up saying 'Hello!'.

按下键盘A：

await page.keyboard.down('Shift')

await page.keyboard.press('KeyA')

await page.keyboard.press('Enter')

await page.keyboard.up('Shift')

注意

修饰键确实会影响down()。按住shift 将以大写形式键入文本。

参数：

key（str）–要按键的名称，例如ArrowLeft。

options（dict）–选项可以具有text字段，如果指定了此选项，则使用此文本生成输入事件。

使用ip代理ua

import asyncio

from pyppeteer import launch

async def register():

    browser = await launch({

        'headless': False,

        # 代理ip

        'args': ['--proxy-server=47.105.111.124:15525', ]

    })

    page = await browser.newPage()

    await page.setUserAgent(

        'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36')

asyncio.get_event_loop().run_until_complete(register())

# 更多参数

args: [

            '--disable-setuid-sandbox',

            '--no-sandbox',

            '--proxy-server=10.24.51.125:8411',

            '--ignore-certificate-errors',

            '--window-size=375,812',

            '--remote-debugging-port=9222'

        ],

pyppteer下的更多相关文章

C++程序结构---1
C++ 基础教程Beta 版原作:Juan Soulié 翻译:Jing Xu (aqua) 英文原版本教程根据Juan Soulie的英文版C++教程翻译并改编. 本版为最新校对版,尚未定稿.如 ...
Android SwipeRefreshLayout 下拉刷新——Hi_博客 Android App 开发笔记
以前写下拉刷新感觉好费劲,要判断ListView是否滚到顶部,还要加载头布局,还要控制头布局的状态,等等一大堆.感觉麻烦死了.今天学习了SwipeRefreshLayout 的用法,来分享一下,有 ...
IE6、7下html标签间存在空白符，导致渲染后占用多余空白位置的原因及解决方法
直接上图:原因:该div包含的内容是靠后台进行print操作,输出的.如果没有输出任何内容,浏览器会默认给该空白区域添加空白符.在IE6.7下,浏览器解析渲染时,会认为空白符也是占位置的,默认其具有字 ...
Ubuntu下使用nvm
写在前面:刚写着写着博客就跨年了,希望新的一年大家万事如意,一切向"前"看! 安装 wget -qO- https://raw.githubusercontent.com/crea ...
Cmder--Windows下命令行利器
cmder cmder是一个增强型命令行工具,不仅可以使用windows下的所有命令,更爽的是可以使用linux的命令,shell命令. 安装包安装包链接下载后,直接解压即用. 修改命令提示符λ为 ...
NodeJs在Linux下使用的各种问题
环境:ubuntu16.04 ubuntu中安装NodeJs 通过apt-get命令安装后发现只能使用nodejs,而没有node命令如果想避免这种情况请看下面连接的这种安装方式: 拓展见:Linu ...
GreenDao 数据库：使用Raw文件夹下的数据库文件以及数据库升级
一.使用Raw文件夹下的数据库文件在使用GreenDao框架时,数据库和数据表都是根据生成的框架代码来自动创建的,从生成的DaoMaster中的OpenHelper类可以看出: public sta ...
[APUE]UNIX进程的环境(下)
一.共享库共享库使得可执行文件中不再需要包含常用的库函数,而只需在所有进程都可存取的存储区中保存这种库例程的一个副本.程序第一次执行的时候或第一次调用某个库函数的时候,用动态链接方法将程序与共享库函 ...
ASP.NET Aries 入门开发教程4：查询区的下拉配置
背景: 今天去深圳溜达了一天,刚回来,看到首页都是微软大法好,看来离.NET的春天就差3个月了~~ 回到正题,这篇的教程讲解下拉配置. 查询区的下拉配置: 1:查询框怎么配置成下拉? 在配置表头:格式 ...

随机推荐

js输入框练习
这个就是一个输入框的小练习(也是第一次写这个东西) <!DOCTYPE html> <html lang="en"> <head> <me ...
Java集合：ArrayList （JDK1.8 源码解读）
ArrayList ArrayList几乎是每个java开发者最常用也是最熟悉的集合,看到ArrayList这个名字就知道,它必然是以数组方式实现的集合关注点说一下ArrayList的几个特点,也 ...
2019-2020-1 20199308《Linux内核原理与分析》第四周作业
<Linux内核分析> 第三章 MenuOS的构造 3.1 Linux内核源代码简介操作系统的"两把宝剑" 中断上下文:保存现场和恢复现场进程上下文目录结构 ar ...
Nagios基本搭建
Nagios简述: 1.一款用来监视系统和网络的开源软件 2.利用其从多的插件实现对本机和远端服务的监控 3.当被监控对象异常时,回及时向管理员警告 4.提供一批预设好的监控插件,用户可以直接调用 5 ...
java中Locks的使用
文章目录 Lock和Synchronized Block的区别 Lock interface ReentrantLock ReentrantReadWriteLock StampedLock Cond ...
多线程并行请求问题及SplashActivity预加载问题解决方案
1. 问题描述(一): 现有3个线程thread1, thread2, thread3.这3个线程是并发执行的,当着3个线程都执行完成以后,需要执行一个finish()事件. 1.1 实现方法: /* ...
CSS样式2
1.css重用 <style> .cl{ ... } .c2{ ... } .c{ ... } </style> <div class='c c2'></di ...
从零开始创建CocoaPods私有库
为什么要创建CocoaPods私有库? 避免重复的造轮子节约时间,方便管理自己的代码精益求精创建CocoaPods私有库 1.创建私有仓库工程执行命令pod lib create SmartB ...
mac OS 安装淘宝npm镜像
淘宝npm镜像官网 https://npm.taobao.org/ 在终端输入 npm install -g cnpm --registry=https://registry.npm.taobao.o ...
IT服务，共享经济的下一个风口？
前两天,在上千名CIO参加.释放10亿采购需求的2017华南CIO大会暨信息技术交易会上,一款"一站式IT工程师共享平台"成为大会关注焦点--这就是神州数码旗下的神州邦邦. 其实最 ...

pyppteer下

官方文档

启动pyppteer

切图

获取响应头，响应头状态，cookies

获取当前页面标题

获取页面html

第一种：获取整个页面html

第二种：只获取文本

注入JS，控制上下滚动

选择器

获取元素内部的文本、属性

get_html

模拟输入，鼠标点击

taobao登录

taobao修改检测浏览器

鼠标事件

键盘事件

使用ip代理ua

pyppteer下的更多相关文章

随机推荐

热门专题