爬虫之协程，selenium

1.什么是代理？代理和爬虫之间的关联是什么？

2.在requests的get和post方法常用的参数有哪些？分别有什么作用？（四个参数）

    - url headers parmas/data proxies

3.在爬虫中如何处理cookie相关的操作？（两种方式）

    - 手动

    - 自动

4.什么是动态请求参数？通常情况下如何捕获动态请求参数呢？

    - 每次请求都会发生变化的请求参数

    - 通常情况下会被隐藏在前台页面

5.代理中的匿名度都有哪些？分别表示什么意思

6.什么是代理的类型？不同类型代理的区别是什么？

    - http

    - https

7.简述线程池中map方法的使用方式和其作用

    func_return = map(func,list)

单线程+多任务异步协程   v3.6

- 意义：提升爬取数据的效率

- 实现异步爬虫的方式

    - 多线程/多进程（不建议）

    - 池（适当）

    - 单线程+多任务异步协程（推荐）

- 概念

    - 协程：协程对象。可以使用async关键字修饰一个函数的定义（特殊的函数），当该特殊的函数被调用后，就可以返回一个协程对象。当函数调用后，函数内部的实现语句不会被立即执行。

        - 协程 == 特殊函数

    - 任务对象:

        - 本质上就是对协程对象进一步封装。

            - 任务对象 == 特殊函数

        - 给任务对象绑定一个回调

            - add_done_callback(callback)

    - 事件循环(EventLoop):无限的循环对象

        - 我们必须将任务对象注册到事件循环对象中，然后开启事件循环对象。

        - 事件循环对象在执行任务对象的时候是基于异步

    - await async

    - 注意事项：

        - 保证特殊函数内部不可以出现不支持异步模块对应的代码

        - 在特殊函数内部遇到阻塞操作必须使用await关键字对其进行手动挂起

        - 如果想要将多个任务对象注册到事件循环中，必须将多个任务对象封装到一个列表中，然后将列表注册（必须使用wait方法将列表中的任务对象进行挂起）到事件循环中

- aiohttp模块：是一个支持异步的网络请求模块

    - pip install aiohttp

selenium模块的使用

- 概念：就是一个基于浏览器自动化的模块。

- selenium和爬虫之间的关联

    - 很便捷的捕获动态加载的数据 - 可见即可得

    - 实现模拟登陆

- 使用

    - 环境的安装：

        - pip install selenium

        - 下载一个浏览器的驱动程序

            - 谷歌驱动下载：http://chromedriver.storage.googleapis.com/index.html

            - 驱动程序和浏览器版本的映射关系：http://blog.csdn.net/huilan_same/article/details/51896672

    - 创建某一款一个浏览器对象

- 动作链

    - 如果想要触发一系列连续的行为动作

- selenium
- 和爬虫之间的关联
- 爬取动态加载的数据（可见及可得）
- 模拟登陆

无头浏览器
- phantomJs：无可视化界面的浏览器

- 谷歌无头浏览器：
from selenium.webdriver.chrome.options import Options。
chrome_options = Options()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--disable-gpu')
browser = webdriver.Chrome(executable_path=path, chrome_options=chrome_options)

- 规避监测
- 相关的网站会对selenium发起的请求进行监测
- 网站后台可以根据window.navigator.webdriver返回值进行selenium的监测
- undefinded：不是selenium进行的请求发送
- true：是selenium发起的请求

- 规避监测的方法：
from selenium.webdriver import ChromeOptions
option = ChromeOptions()
option.add_experimental_option('excludeSwitches', ['enable-automation'])
bro = webdriver.Chrome(executable_path='chromedriver.exe',options=option)

协程 :

　　导入 asyncio  包

    步骤：1.创建一个协程对象。

　　　　　 2.根据协程对象封装了一个/一组（用列表表示）任务对象。

　　　　　　3.事件循环：创建一个事件循环对象， 将任务注册该对象中并且启动时间循环。

           4.定义一个任务对象的回调函数。（add_done_callback(callback)）

　　　　　　　　5.注意事项：在特殊函数内部不可以出现不支持异步模块相关的代码。(例：time，request)

　　　　　　　　　6.- await async
　　　　　　　　　　7.aiohttp模块 ：是一个支持一步的网络请求模块。

- 注意事项：

        - 保证特殊函数内部不可以出现不支持异步模块对应的代码

        - 在特殊函数内部遇到阻塞操作必须使用await关键字对其进行手动挂起

      - 如果想要将多个任务对象注册到事件循环中，必须将多个任务对象封装到一个列表中，然后将列表注册
（必须使用wait方法将列表中的任务对象进行挂起）到事件循环中

定义了一个特殊的函数

#特殊：调用后会返回一个协程对象，且函数内部的实现语句不会被立即执行

#创建一个协程对象 async def test(num):     print(num) c = test(10) print(c)

#单个任务协程
import asyncio

import time

async def request(url):

    print('正在请求：',url)

    time.sleep(2)

    print('请求完毕！',url)

    return url

#定义一个任务对象的回调函数

#task参数表示的就是该函数被绑定的那个任务对象

def task_callback(task):

    print('i am task_callback()')

    print(task.result())

    #task.result()返回的就是任务对象对应的特殊函数内部的返回值

c = request('www.xxx.com')

task = asyncio.ensure_future(c)

task.add_done_callback(task_callback)

loop = asyncio.get_event_loop()

loop.run_until_complete(task)

多任务协程（由于在特殊函数内部出现了不支持异步模块（time.sleep）对应的代码利用 asyncio 模块进行替代）

import asyncio

import time

start = time.time()

#在特殊函数内部不可以出现不支持异步模块相关的代码

async def request(url):

    print('正在请求：',url)

    # time.sleep(2)#time模块是不支持异步

    await asyncio.sleep(2)  #阻塞操作必须使用await关键字进行挂起

    print('请求完毕！',url)

    return url

urls = [

    'www.1.com',

    'www.2.com',

    'www.3.com'

]

def task_callback(task):

    print(task.result())

tasks = [] #多任务列表：存放多个任务对象

for url in urls:

    c = request(url)

    task = asyncio.ensure_future(c)

    task.add_done_callback(task_callback)

    tasks.append(task)  #将多个任务对象装在到一个任务列表中

loop = asyncio.get_event_loop()

#多任务注册

#wait就是将任务列表中的任务对象进行挂起

loop.run_until_complete(asyncio.wait(tasks))

print(time.time()-start)

aiohttp (由于requests 模块不支持异步所以用aiohttp 模块)

import asyncio

import time

import aiohttp

start = time.time（）

    #细节1：在每一个with前加上async关键字

    #细节2：在get方法前和response.text()前加上await关键字进行手动挂起操作

async def request(url):

   async with aiohttp.ClientSession() as s:

       #s.get/post和requests中的get/post用法几乎一样：url，headers，data/prames

       #在s.get中如果使用代理操作：proxy="http://ip：port"

       async with await s.get(url) as response:

           #获取字符串形式的响应数据：response.text()

           #获取byte类型的：response.read()

           page_text = await response.text()

           return page_text

urls = []

for i in range(500):

    urls.append('http://127.0.0.1:5000/bobo')

def parse(task):    #（回调函数）

    page_text = task.result()

    print(page_text+',请求到的数据！！！')

tasks = []

for url in urls:

    c = request(url)

    task = asyncio.ensure_future(c) #(创建任务对象)

    task.add_done_callback(parse)#（给任务绑定一个回调）

    tasks.append(task)

loop = asyncio.get_event_loop()

loop.run_until_complete(asyncio.wait(tasks))

print(time.time()-start)

案例

import aiohttp

import asyncio

from lxml import etree

all_titles = []

headers = {

    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36'

}

async def request(url):

    async with aiohttp.ClientSession() as s:

        async with await s.get(url,headers=headers) as response:

            page_text = await response.text()

            return page_text

urls = []

url = 'http://wz.sun0769.com/index.php/question/questionType?type=4&page=%d'

for page in range(100):

    u_page = page * 30

    new_url = format(url%u_page)

    urls.append(new_url)

tasks = []

def parse(task):

    page_text = task.result()

    page_text = page_text.encode('gb2312').decode('gbk')

    tree = etree.HTML(page_text)

    tr_list = tree.xpath('//*[@id="morelist"]/div/table[2]//tr/td/table//tr')

    for tr in tr_list:

        title = tr.xpath('./td[2]/a[2]/text()')[0]

        print(title)

        all_titles.append(title)

for url in urls:

    c = request(url)

    task = asyncio.ensure_future(c)

    task.add_done_callback(parse)

    tasks.append(task)

loop = asyncio.get_event_loop()

loop.run_until_complete(asyncio.wait(tasks))

selenium

演示

from selenium import webdriver

from time import sleep

# 后面是你的浏览器驱动位置，记得前面加r'','r'是防止字符转义的

driver = webdriver.Chrome(r'chromedriver.exe')

# 用get打开百度页面

driver.get("http://www.baidu.com")

# 查找页面的“设置”选项，并进行点击

driver.find_elements_by_link_text('设置')[0].click()

sleep(2)

# # 打开设置后找到“搜索设置”选项，设置为每页显示50条

driver.find_elements_by_link_text('搜索设置')[0].click()

sleep(2)

# 选中每页显示50条

m = driver.find_element_by_id('nr')

sleep(2)

m.find_element_by_xpath('//*[@id="nr"]/option[3]').click()

m.find_element_by_xpath('.//option[3]').click()

sleep(2)

# 点击保存设置

driver.find_elements_by_class_name("prefpanelgo")[0].click()

sleep(2)

# 处理弹出的警告页面   确定accept() 和 取消dismiss()

driver.switch_to_alert().accept()

sleep(2)

# 找到百度的输入框，并输入 美女

driver.find_element_by_id('kw').send_keys('美女')

sleep(2)

# 点击搜索按钮

driver.find_element_by_id('su').click()

sleep(2)

# 在打开的页面中找到“Selenium - 开源中国社区”，并打开这个页面

driver.find_elements_by_link_text('美女_百度图片')[0].click()

sleep(3)

# 关闭浏览器

driver.quit()

from selenium import webdriver

from time import sleep

bro = webdriver.Chrome(executable_path='chromedriver.exe')

#发起指定url的请求

bro.get('https://www.jd.com/')

#在搜索框中搜索商品

#可以使用find系列的方法进行标签定位

search_input = bro.find_element_by_xpath('//*[@id="key"]')

#想搜索框中写入商品名称

search_input.send_keys('iphonex')

sleep(2)

btn = bro.find_element_by_xpath('//*[@id="search"]/div/div[2]/button')

btn.click()

sleep(2)

#执行js让滚轮向下滑动

bro.execute_script('window.scrollTo(0,document.body.scrollHeight)')

sleep(2)

# bro.execute_script('window.scrollTo(0,-document.body.scrollHeight)')

page_text = bro.page_source

with open('./jingdong.html','w',encoding='utf-8') as fp:

    fp.write(page_text)

print(page_text)

sleep(4)

#关闭浏览器

bro.quit()

联动操作

from selenium import webdriver

from selenium.webdriver import ActionChains #动作连

from time import sleep

bro = webdriver.Chrome(executable_path='chromedriver.exe')

bro.get('https://www.runoob.com/try/try.php?filename=jqueryui-api-droppable')

#定位要拖动的标签

#定位的标签是存在于iframe的子页面中，如果直接使用find做定位，是定位不到的

# target_ele = bro.find_element_by_id('draggable')

#像定位iframe中子页面中的标签必须进行如下操作

bro.switch_to.frame('iframeResult')

target_ele = bro.find_element_by_id('draggable')

#基于动作连实现滑动操作

action = ActionChains(bro)

#点击且长按

action.click_and_hold(target_ele)

for i in range(5):

    #perform()表示立即执行动作连指定好的动作

    action.move_by_offset(17,0).perform()

    sleep(0.5)

action.release()

sleep(4)

bro.quit()

from selenium import webdriver

from selenium.webdriver import ActionChains #动作连

from time import sleep

bro = webdriver.Chrome(executable_path='chromedriver.exe')

bro.get('https://www.runoob.com/try/try.php?filename=jqueryui-api-droppable')

#定位要拖动的标签

#定位的标签是存在于iframe的子页面中，如果直接使用find做定位，是定位不到的

# target_ele = bro.find_element_by_id('draggable')

#像定位iframe中子页面中的标签必须进行如下操作

bro.switch_to.frame('iframeResult')

target_ele = bro.find_element_by_id('draggable')

#基于动作连实现滑动操作

action = ActionChains(bro)

#点击且长按

action.click_and_hold(target_ele)

for i in range(5):

    #perform()表示立即执行动作连指定好的动作

    action.move_by_offset(17,0).perform()

    sleep(0.5)

action.release()

sleep(4)

bro.quit()

selenium 谷歌无头

from selenium import webdriver

from selenium.webdriver.chrome.options import Options

from time import sleep

chrome_options = Options()

chrome_options.add_argument('--headless')

chrome_options.add_argument('--disable-gpu')

bro = webdriver.Chrome(executable_path='chromedriver.exe', chrome_options=chrome_options)

bro.get('https://www.baidu.com')

sleep(3)

print(bro.page_source)

bro.save_screenshot('1.png')

bro.quit()

selenium 规避检测（检测按方法在网页console 输入 window.navigator.webdriver）

from selenium import webdriver

from selenium.webdriver import ChromeOptions

option = ChromeOptions()

option.add_experimental_option('excludeSwitches', ['enable-automation'])

#实现了规避监测

bro = webdriver.Chrome(executable_path='chromedriver.exe',options=option)

bro.get('https://www.taobao.com/')

无头和检测可以一起使用

selenium 爬取案例

from selenium import webdriver

from time import sleep

from lxml import etree

def scoll():

    bro.execute_script('window.scrollTo(0,document.body.scrollHeight)')

    sleep(1)

    bro.execute_script('window.scrollTo(0,document.body.scrollHeight)')

    sleep(1)

    bro.execute_script('window.scrollTo(0,document.body.scrollHeight)')

    sleep(1)

bro = webdriver.Chrome(executable_path='chromedriver.exe')

url = 'https://bj.58.com/changping/ershoufang/?utm_source=market&spm=u-2d2yxv86y3v43nkddh1.BDPCPZ_BT&PGTID=0d30000c-0000-1ad9-49a6-09fbce3a62cf&ClickID=1'

bro.get(url) #get是一个阻塞的方法

sleep(2)

scoll()

#每一个页码对应的页面源码数据

page_text_list = []

#第一页的页面源码数据

page_text = bro.page_source

page_text_list.append(page_text)

for i in range(1,3):

    scoll()

    next_page_btn = bro.find_element_by_xpath('/html/body/div[5]/div[5]/div[1]/div[2]/a[6]')

    next_page_btn.click()

    sleep(1)

    page_text = bro.page_source

    page_text_list.append(page_text)

for page_text in page_text_list:

    tree = etree.HTML(page_text)

    tree.xpath('')

爬虫之协程，selenium的更多相关文章

python爬虫---单线程+多任务的异步协程,selenium爬虫模块的使用
python爬虫---单线程+多任务的异步协程,selenium爬虫模块的使用一丶单线程+多任务的异步协程特殊函数 # 如果一个函数的定义被async修饰后,则该函数就是一个特殊的函数 async ...
python爬虫——多线程+协程（threading+gevent）
上一篇博客中我介绍了如何将爬虫改造为多进程爬虫,但是这种方法对爬虫效率的提升不是非常明显,而且占用电脑cpu较高,不是非常适用于爬虫.这篇博客中,我将介绍在爬虫中广泛运用的多线程+协程的解决方案,亲测 ...
进程and线程and协程效率对比
1.进程与进程池的效率对比多进程:p.start()过程中,只是向操作系统发送一个信号,至于什么时候执行,都是操作系统的事情,操作系统接收到信号时,帮该进程申请一块内存空间+拷贝父进程的地址空间 # ...
爬虫必知必会（4）_异步协程-selenium_模拟登陆
一.单线程+多任务异步协程(推荐) 协程:对象.可以把协程当做是一个特殊的函数.如果一个函数的定义被async关键字所修饰.该特殊的函数被调用后函数内部的程序语句不会被立即执行,而是会返回一个协程对象 ...
Python实现基于协程的异步爬虫
一.课程介绍 1. 课程来源本课程核心部分来自<500 lines or less>项目,作者是来自 MongoDB 的工程师 A. Jesse Jiryu Davis 与 Python ...
【Python3爬虫】使用异步协程编写爬虫
一.基本概念进程:进程是一个具有独立功能的程序关于某个数据集合的一次运行活动.进程是操作系统动态执行的基本单元. 线程:一个进程中包含若干线程,当然至少有一个线程,线程可以利用进程所拥有的资源.线程 ...
Python 协程并发爬虫网页
简单爬虫实例: 功能:通过urllib.request实现网站爬虫,捕获网站内容. from urllib import request def f(url): print("GET:%s& ...
爬虫高性能相关（协程效率最高，IO密集型）
一背景常识爬虫的本质就是一个socket客户端与服务端的通信过程,如果我们有多个url待爬取,采用串行的方式执行,只能等待爬取一个结束后才能继续下一个,效率会非常低. 需要强调的是:串行并不意味着低 ...
【爬虫小程序：爬取斗鱼所有房间信息】Xpath(协程池版)
# 本程序亲测有效,用于理解爬虫相关的基础知识,不足之处希望大家批评指正 from gevent import monkey monkey.patch_all() from gevent.pool i ...

随机推荐

jquery file upload + asp.net 异步多文件上传
百度了很久,国内一直找不到使用jquery file upload 插件 +asp.net 的相关代码一开始使用 jquery uploadify ,一款基于 flash的插件,但是不支持 Sa ...
AS优化
第一步:打开AS安装所在的位置,用记事本打开“红色框”选中的文件. 如图: 第二步:打开“studio64.exe.vmoptions”文件后修改里面的值,修改后如下: 1 2 3 4 5 6 7 8 ...
POJ 1166 The Clocks [BFS] [位运算]
1.题意:有一组3*3的只有时针的挂钟阵列,每个时钟只有0,3,6,9三种状态:对时针阵列有9种操作,每种操作只对特点的几个时钟拨一次针,即将时针顺时针波动90度,现在试求从初试状态到阵列全部指向0的 ...
VRChat之转移地图缓存
我的电脑是win10,win10的缓存地址和名称可能和win7的名字有所不同. win10缓存路径:C:\Users\Administrator\AppData\LocalLow\VRChat\VRC ...
微服务实战——微服务架构选型SpringCloud / Dubbo / K8S比较（一）
## 说在前面大概是三年前,因一些原因公司原项目最初为单体结构部署,所有业务模块都在一个项目里面,而后随着业务的不断膨胀以及模块之间的耦合,导致后面增加或修改一些简单业务时的成本都会变的极大.新入职 ...
7.13 Python基础语法
Python基础语法编码: 默认情况下,Python 3 源码文件以 UTF-8 编码,所有字符串都是 unicode 字符串. 当然你也可以为源码文件指定不同的编码 python2.7中有两个函数 ...
「CodeForces 476A」Dreamoon and Stairs
Dreamoon and Stairs 题意翻译题面 DM小朋友想要上一个有 \(n\) 级台阶的楼梯.他每一步可以上 \(1\) 或 \(2\) 级台阶.假设他走上这个台阶一共用了 \(x\) 步 ...
1045 快速排序 (25 分)C语言
著名的快速排序算法里有一个经典的划分过程:我们通常采用某种方法取一个元素作为主元,通过交换,把比主元小的元素放到它的左边,比主元大的元素放到它的右边. 给定划分后的 N 个互不相同的正整数的排列,请问 ...
反射 API基本代码测试
ReflectBean.java package com.xiaojian.basics.reflect; /** * 使用反射的测试类 */ public class ReflectBean { / ...
Oracle数据库连接工具的使用（三）
一.PL/SQL Developer介绍 1.简介 PL/SQL Developer是一个集成开发环境,专门开发面向Oracle数据库的应用.PL/SQL也是一种程序语言,叫做过程化SQL语言(Pro ...

爬虫之协程，selenium

爬虫之协程，selenium的更多相关文章

随机推荐

热门专题