selenium 模块使用

selenium

概念:基于浏览器自动化的一个模块,可以模拟浏览器行为
环境的安装:下载selenium模块
selenium和爬虫之间的关联是什么?
- 便捷的获取页面中动态加载的数据
  - requests模块进行数据爬取:可见非可得
  - selenium:可见即可得
- 实现模拟登录
基本操作:
- 谷歌浏览器驱动程序下载地址:http://chromedriver.storage.googleapis.com/index.html
- 驱动程序和谷歌版本的映射关系表:https://blog.csdn.net/huilan_same/article/details/51896672
- 1.实例化某一款浏览器对象(驱动程序的路径)
- 2.find系列的函数用作于标签定位
动作链:一系列的行为动作
无头浏览器:无可视化界面的浏览器.
- phantomJS

1 百度搜索"美女",代码演示

from selenium import webdriver

from time import sleep

# 后面是你的浏览器驱动位置，记得前面加r'','r'是防止字符转义的

driver = webdriver.Chrome(r'D:\教学视频\python 爬虫\tools\chromedriver.exe') # 浏览器驱动路径

# 用get打开百度页面

driver.get("http://www.baidu.com")

# 查找页面的“设置”选项，并进行点击

sleep(1)

driver.find_elements_by_link_text('设置')[0].click()

sleep(2)

# 打开设置后找到“搜索设置”选项，设置为每页显示50条

driver.find_elements_by_link_text('搜索设置')[0].click()

sleep(2)

# 选中每页显示50条

m = driver.find_element_by_id('nr')

sleep(2)

m.find_element_by_xpath('//*[@id="nr"]/option[3]').click()

m.find_element_by_xpath('.//option[3]').click()

sleep(2)

# 点击保存设置

driver.find_elements_by_class_name("prefpanelgo")[0].click()

sleep(2)

# 处理弹出的警告页面   确定accept() 和 取消dismiss()

driver.switch_to_alert().accept()

sleep(2)

# 找到百度的输入框，并输入 美女

driver.find_element_by_id('kw').send_keys('美女')

sleep(2)

# 点击搜索按钮

driver.find_element_by_id('su').click()

sleep(2)

# 在打开的页面中找到“Selenium - 开源中国社区”，并打开这个页面

driver.find_elements_by_link_text('美女_百度图片')[0].click()

sleep(3)

# 关闭浏览器

driver.quit()

2 selenium的基本操作

from selenium import webdriver

from time import sleep

#实例化一个浏览器对象

bro = webdriver.Chrome(executable_path=r'C:\Users\oldboy-python\Desktop\爬虫+数据\day04\chromedriver.exe')

url = 'https://www.jd.com/'

bro.get(url) #用户发起请求

#定位标签

search_input = bro.find_element_by_id('key')

#对指定标签进行数据交互

search_input.send_keys('macPro')

btn = bro.find_element_by_xpath('//*[@id="search"]/div/div[2]/button')

btn.click()

sleep(2)

#执行js代码

jsCode = 'window.scrollTo(0,document.body.scrollHeight)'

bro.execute_script(jsCode)

sleep(3)

bro.quit()

3 seleniu爬取药监总局数据

# 爬取前两页,爬取动态获取到额数据

from selenium import webdriver

from lxml import etree

from time import sleep

#实例化一个浏览器对象

page_text_list = []

bro = webdriver.Chrome(executable_path=r'./chromedriver.exe')

url = 'http://125.35.6.84:81/xk/'

bro.get(url)

sleep(2)

#page_source返回的就是当前浏览器打卡页面对应的页面源码数据

page_text = bro.page_source

page_text_list.append(page_text)

for i in range(2):

    bro.find_element_by_id('pageIto_next').click()

    sleep(2)

    page_text = bro.page_source

    page_text_list.append(page_text)

for page_text in page_text_list:

    tree = etree.HTML(page_text)

    li_list = tree.xpath('//*[@id="gzlist"]/li')

    for li in li_list:

        name = li.xpath('./dl/@title')[0]

        print(name)

sleep(3)

bro.quit()

4 selenium 动作链

from lxml import etree

from time import sleep

from selenium import webdriver

from selenium.webdriver import ActionChains

# 实例化一个浏览器对象

page_text_list = []

bro = webdriver.Chrome(executable_path=r'./chromedriver.exe')

url = 'https://www.runoob.com/try/try.php?filename=jqueryui-api-droppable'

bro.get(url)

# 如果定位的标签是存在于iframe对应的子页面中的话,在进行标签定位前一定要执行一个switch_to的操作

bro.switch_to.frame('iframeResult')

div_tag = bro.find_element_by_id('draggable')

# 1.实例化动作链对象

action = ActionChains(bro)

action.click_and_hold(div_tag)

for i in range(5):

    # .perform()方法是让动作链立即执行

    action.move_by_offset(17, 0).perform()

    sleep(0.5)

action.release()  # 释放

sleep(3)

bro.quit()  # 关闭浏览器

5 无头浏览器headless

无头浏览器是为了用户使用过程中弹出浏览器自动操作:使用chorm浏览器的无头模式

from selenium.webdriver.chrome.options import Options

from time import sleep

from selenium import webdriver

# 创建一个参数对象，用来控制chrome以无界面模式打开

chrome_options = Options()

chrome_options.add_argument('--headless')

chrome_options.add_argument('--disable-gpu')

# 实例化一个浏览器对象

bro = webdriver.Chrome(executable_path=r'./chromedriver.exe', chrome_options=chrome_options)

bro.get('https://www.baidu.com')

sleep(2)

bro.save_screenshot('1.png')

print(bro.page_source)

sleep(2)

bro.quit()

6 selenium 规避风险

某些网站存在selenium检测

from time import sleep

from selenium import webdriver

from selenium.webdriver import ChromeOptions

# 实例化一个对象规避检测

option = ChromeOptions()

option.add_experimental_option('excludeSwitches', ['enable-automation'])

#实例化一个浏览器对象

bro = webdriver.Chrome(executable_path=r'./chromedriver.exe',options=option)

bro.get('https://www.taobao.com/')

7 12306 模拟登录

使用截图,坐标定位,点击动作链技术

from selenium import webdriver

from selenium.webdriver import ActionChains

from PIL import Image  # 用作于图片的裁剪

from ChaoJiYing import Chaojiying_Client

from time import sleep

bro = webdriver.Chrome(executable_path=r'./chromedriver.exe')

bro.get('https://kyfw.12306.cn/otn/login/init')

sleep(5)

# 验证码图片进行捕获(裁剪)

bro.save_screenshot('main.png')

# 定位到了验证码图片对应的标签

code_img_ele = bro.find_element_by_xpath('//*[@id="loginForm"]/div/ul[2]/li[4]/div/div/div[3]/img')

location = code_img_ele.location  # 验证码图片基于当前整张页面的左下角坐标

size = code_img_ele.size  # 验证码图片的长和宽

# 裁剪的矩形区域(左下角和右上角两点的坐标)

rangle = (

int(location['x']), int(location['y']), int(location['x'] + size['width']), int(location['y'] + size['height']))

i = Image.open('main.png')

frame = i.crop(rangle)

frame.save('code.png')

# 使用打码平台进行验证码的识别

chaojiying = Chaojiying_Client('bobo328410948', 'bobo328410948', '899370')  # 用户中心>>软件ID 生成一个替换 96001

im = open('code.png', 'rb').read()  # 本地图片文件路径 来替换 a.jpg 有时WIN系统须要//

result = chaojiying.PostPic(im, 9004)['pic_str']

print(result)  # x1,y1|x2,y2|x3,y3  ==> [[x1,y1],[x2,y2],[x3,y3]]

all_list = []  # [[x1,y1],[x2,y2],[x3,y3]] 每一个列表元素表示一个点的坐标,坐标对应值的0,0点是验证码图片左下角

if '|' in result:

    list_1 = result.split('|')

    count_1 = len(list_1)

    for i in range(count_1):

        xy_list = []

        x = int(list_1[i].split(',')[0])

        y = int(list_1[i].split(',')[1])

        xy_list.append(x)

        xy_list.append(y)

        all_list.append(xy_list)

else:

    x = int(result.split(',')[0])

    y = int(result.split(',')[1])

    xy_list = []

    xy_list.append(x)

    xy_list.append(y)

    all_list.append(xy_list)

# action = ActionChains(bro)

for l in all_list:

    x = l[0]

    y = l[1]

    ActionChains(bro).move_to_element_with_offset(code_img_ele, x, y).click().perform()

    sleep(1)

sleep(3)

bro.quit()

selenium 模块使用的更多相关文章

爬虫基础(三)-----selenium模块应用程序
摆脱穷人思维 <三> : 培养"目标导向"的思维: 好项目永远比钱少,只要目标正确,钱总有办法解决. 一 selenium模块什么是selenium?seleni ...
爬虫之selenium模块
Selenium 简介 selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器,完全模拟 ...
使用Selenium模块报错的解决办法 (FileNotFound,WebDriverException)
添加Chrome浏览器程序的目录到系统Path变量中: C:\Users\%USERNAME%\AppData\Local\Google\Chrome\Application ,使用pip3 inst ...
Python爬虫——selenium模块
selenium模块介绍 selenium最初是一个测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器,完全模拟浏览 ...
python 全栈开发，Day136(爬虫系列之第3章-Selenium模块)
一.Selenium 简介 selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器,完全 ...
三: 爬虫之selenium模块
一 selenium模块什么是selenium?selenium是Python的一个第三方库,对外提供的接口可以操作浏览器,然后让浏览器完成自动化的操作. selenium最初是一个自动化测试工具, ...
7 selenium 模块
selenium 模块一.简介 1.Python的一个第三方库,对外提供的接口可以操作浏览器,然后让浏览器完成自动化的操作. 2.自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接 ...
03 爬虫之selenium模块
selenium模块 1.概念,了解selenium 什么是selenium?selenium是Python的一个第三方库,对外提供的接口可以操作浏览器,然后让浏览器完成自动化的操作. seleniu ...
浏览器行为模拟之requests、selenium模块
requests模块前言: 通常我们利用Python写一些WEB程序.webAPI部署在服务端,让客户端request,我们作为服务器端response数据: 但也可以反主为客利用Python的re ...
爬虫模块之selenium模块
一模块的介绍 selenium模块最开始是一个自动化测试的工具,驱动浏览器完全模拟浏览器自动测试. from selenium import webdriver # 驱动浏览器 browser=we ...

随机推荐

ContOS 7安装Docker使用及部署MySQL和Nginx
此文章采取狂神说Java https://space.bilibili.com/95256449 Docker学习网址: Docker官网:https://www.docker.com/ Docker ...
当TIME_WAIT状态的TCP正常挥手，收到SYN后…
摘要:今天就来讨论下这个问题,在TCP正常挥手过程中,处于TIME_WAIT状态的连接,收到相同四元组的SYN后会发生什么? 本文分享自华为云社区<在TIME_WAIT状态的TCP连接,收到SY ...
用图帮你了解https的原理
Http存在的问题上过网的朋友都知道,网络是非常不安全的.尤其是公共场所很多免费的wifi,或许只是攻击者的一个诱饵.还有大家平时喜欢用的万能钥匙,等等.那我们平时上网可能会存在哪些风险呢? 泄密, ...
【C# 线程】数据槽 LocalDataStoreSlot简称DataSlot
背景为了确保在线程中声明特定类型的变量,在每个线程中的值都是唯一的,不受到其他线程对该变量读写的影响.也就是俗称的线程本地存储 (TLS),可用于存储对线程和应用程序域唯一的数据. 例如:主线程中声 ...
【C#基础概念】枚举 (enum详解)
我们重点来讲解简单枚举和标志枚举的用法和区别继承 Object-> ValueType ->Enum Object-> ValueType ->struct 包括int f ...
pyinstaller：各种错误及解决方法
1.DLL load failed 说明没有找到某个DLL 解决方法: 在 D:\Anaconda\Anaconda3\Library\bin 下找到缺失的DLL,复制到dist下 2.No modu ...
Python post中session和auth 的三种方法
1.方式一,获取session后.存储起来.下次调用时候,传递一个session植即可 #/bin/python # -*- coding: utf-8 -*- import requests fro ...
js数组用法
去面试的时候问到我一个问题,你能说出来多少种数组的方法跟用法,我当时只说出来十一个,回来以后才想起来还有很多种,现在整理一下,没有排名,想起那个写那个 1:forEach 从头遍历数组,没有返回值,有 ...
java基础复习记录
java基础复习记录(数组.对象.异常) 数组数组的定义数组是相同类型数据的有序集合.如:篮球队就是一个数组,队员球服上有号码,相当于索引.通过某一个的某一个号码来确认是某一个队员.数组中索引从0 ...
Dapr云原生应用开发系列7：工作流集成
题记:这篇介绍一个很有意思的东西,Dapr和Logic Apps这样的工作流引擎集成. Dapr工作流在1年多前,Dapr的孵化团队搞了一个很有意思的东西:把Dapr和Logic Apps集成起来, ...

selenium 模块使用

selenium

1 百度搜索"美女",代码演示

2 selenium的基本操作

3 seleniu爬取药监总局数据

4 selenium 动作链

5 无头浏览器headless

6 selenium 规避风险

7 12306 模拟登录

selenium 模块使用的更多相关文章

随机推荐

热门专题