selenium知识点

1. 导包

 from selenium import webdriver

 from selenium.webdriver.support.ui import WebDriverWait

 from selenium.webdriver.support import expected_conditions as ec

 from selenium.webdriver.common.by import By

2. 创建 webdriver

driver = webdriver.Chrome(executable_path=r'C:\python35\chromedriver.exe')

# executable_path：chromedriver.exe的存放路径

3. 操作

1. 常用操作

driver.page_source   # 响应页面,element标签

driver.title         # 请求页面的title

driver.current_url   # 请求的url

driver.close()       # 关闭浏览器窗口

driver.quit()        # 退出浏览器

driver.current_window_handle  # 获取当前窗口的句柄

driver.window_handles         # 获取所有窗口的句柄

driver.switch_to_window()   # 切换浏览器窗口

driver.execute_script()     # 执行js脚本(在打开新窗口时用)

driver.get_cookie()         # 获取cookie

driver.find_element_by_class_name()   # 根据class查找标签

driver.find_element_by_xpath()        # 根据xpath查找标签

4 例子 -- 爬去拉钩网招聘信息

过程：用 selenium 访问首页，然后用lxml解析首页上的每一个职位，获取职位的链接地址，然后再用selenium 访问该地址，用lxml提取职位详情的信息。

get_attribute('class') # 获取标签的class属性值

self.driver.execute_script('window.open("https://www.baidu.com/")')  # 打开一个新窗口 (请求详情页)  通过执行js脚本打开新的窗口

self.driver.switch_to.window(self.driver.window_handles[])   # 将driver切换到新窗口（详情页窗口）

WebDriverWait(driver=self.driver, timeout=10). \

            until(ec.presence_of_element_located((By.XPATH, '//span[@class="name"]')))  # 显示等待（职位详情页，出现职位标题为条件），在等待过程中如果出现要寻找的标签，则结束等待，如果没有出现则一直等待，直到10s，抛出异常。注意：这里只能定位某个标签，不能取标签里面的值，如这里的span标签中的值。

注意：在切换到新窗口后，如果想继续在原始窗口执行操作，需要再重新切回原始窗口，如这里的由详情页窗口切换到列表页窗口。

import re

import time

import csv

from lxml import etree

from selenium import webdriver

from selenium.webdriver.common.by import By

from selenium.webdriver.support import expected_conditions as ec

from selenium.webdriver.support.ui import WebDriverWait

class LaGouSpider:

    def __init__(self):

        self.driver = webdriver.Chrome(executable_path=r'C:\python35\chromedriver.exe')

        self.init_url = 'https://www.lagou.com/zhaopin/Python/'

        self.next_page = True

        self.position = None

        self.csv_header = ['职位名称', '职位要求', '薪水', '职位标签', '职位诱惑', '职位详情', '发布时间']

        self.is_writer_header = False

    def request_list_page(self, url=None):

        if url:

            self.driver.get(url)

        html = etree.HTML(self.driver.page_source)

        # 解析html 获取职位列表

        links = html.xpath('//a[@class="position_link"]/@href')

        for link in links:

            self.request_detail_page(link)

            time.sleep(1)

        # 下一页

        next_btn = self.driver.find_element_by_xpath('//div[@class="pager_container"]/a[last()]')

        if 'page_no pager_next_disabled' not in next_btn.get_attribute('class'):

            next_btn.click()

        else:

            self.next_page = False

    def request_detail_page(self, url):

        # 打开一个新窗口 (请求详情页)

        self.driver.execute_script('window.open("' + url + '")')

        # 将driver切换到新窗口（详情页窗口）

        self.driver.switch_to.window(self.driver.window_handles[1])

        # 显示等待（职位详情页，出现职位标题为条件）

        WebDriverWait(driver=self.driver, timeout=10). \

            until(ec.presence_of_element_located((By.XPATH, '//span[@class="name"]')))

        # 解析详情页

        self.parse_detail_page(self.driver.page_source)

        # 关闭新窗口

        self.driver.close()

        # 重新将窗口切回到列表页窗口

        self.driver.switch_to.window(self.driver.window_handles[0])

    def parse_detail_page(self, source):

        html = etree.HTML(source)

        position_name = html.xpath('//span[@class="name"]/text()')

        job_request = html.xpath('//dd[@class="job_request"]/p//text()')

        position_label = html.xpath('//ul[@class="position-label clearfix"]//text()')

        publish_time = html.xpath('//p[@class="publish_time"]//text()')

        job_advantage = html.xpath('//dd[@class="job-advantage"]/p/text()')

        job_detail = html.xpath('//div[@class="job-detail"]/p/text()')

        # 清洗数据

        position_name = position_name[0] if position_name else None

        job_request = [re.sub('\n|/|\\xa0', '', i).strip() for i in job_request] if job_request else None

        job_request = [i for i in job_request if i != '']

        # 提取salary

        salary = job_request[0] if len(job_request) > 2 else None

        # 提取职位需求

        job_request = ','.join(job_request[2:5])

        # 职位标签

        position_label = [re.sub('\n|/|\\xa0', '', i).strip() for i in position_label] if position_label else None

        position_label = ','.join([i for i in position_label if i != ''])

        # 职位诱惑

        job_advantage = job_advantage[0] if job_advantage else None

        # 发布时间

        print(publish_time)

        print(salary)

        publish_time = re.match(r'\d+天\w|\d+:\d+', publish_time[0]).group() if publish_time else  None

        # 职位详情

        job_detail = ','.join([a.strip() for a in job_detail] if job_detail else None)

        position = {

            '职位名称': position_name,

            '职位要求': job_request,

            '薪水': salary,

            '职位标签': position_label,

            '职位诱惑': job_advantage,

            '职位详情': job_detail,

            '发布时间': publish_time,

        }

        self.write_csv(position)

    def write_csv(self, position):

        with open('position.csv', 'a+', encoding='utf-8', newline='') as f:

            writer = csv.DictWriter(f, self.csv_header)

            if not self.is_writer_header:

                writer.writeheader()

                self.is_writer_header = True

            writer.writerow(position)

    def run(self):

        self.request_list_page(self.init_url)

        while self.next_page:

            self.request_list_page()

if __name__ == '__main__':

    lagou = LaGouSpider()

    lagou.run()

5. Selenium 的 WebDriverWait

https://blog.csdn.net/duzilonglove/article/details/78455051

selenium知识点的更多相关文章

《手把手教你》系列基础篇（八十）-java+ selenium自动化测试-框架设计基础-TestNG依赖测试-番外篇（详解教程）
1.简介经过前边几篇知识点的介绍,今天宏哥就在实际测试中应用一下前边所学的依赖测试.这一篇主要介绍在TestNG中一个类中有多个测试方法的时候,多个测试方法的执行顺序或者依赖关系的问题.如果不用de ...
2019 To do List
做好测试不是靠编程,而是靠的是严禁的作风,慎密的逻辑思维,适合的测试流程. 内心有些迷茫的时候,迷茫的是作为测试既然要学那么多编程,为什么不直接去干开发呢?学了编程,用不上,到底有什么用呢? 看了这句 ...
selenium + python自动化测试unittest框架学习（四）python导入模块及包知识点
在写脚本的时候,发现导入某些模块,经常报错提示导入模块失败,这里来恶补下python导入模块的知识点. 1.模块导入时文件查找顺序在脚本中,import xxx模块时的具体步骤: (1)新建一个mo ...
python爬虫知识点总结（八）Selenium库详解
官方学习文档:http://selenium-python.readthedocs.io/api.html 一.什么是Selenium? 答:自动化测试工具,支持多种浏览器.用来驱动浏览器,发出指令让 ...
浅谈学习selenium的一些知识点的总结
学习自动化测试,先得学习一门语言.自动化对语言要求掌握的程度不深,但必须得会基本的入门语法. 我学习的是python2,简单,易懂,上手快. 每天敲就是了. 我的学习路径是: 先学习一段时间pytho ...
关于python中selenium一些知识点
selenium几种元素操纵方法切换iframe层 #切换至xx iframe层 driver.switch_to.frame("name and id") # 切回主HTML层 ...
python selenium 实战涉及很多知识点
1.iframe的切入和切出 #切入 driver.switch_to.frame(driver.find_element_by_id('iFrame_1')) # 切换出来 driver.switc ...
Selenium+java自动化测试常用知识点
一.元素的定位 1.通过ID定位元素: findElement(By.id(element)); 2.通过元素的名称定位元素: findElement(By.name(element)); 3.通过元 ...
Python爬虫学习（9）：Selenium的使用
1 简介以及安装 Selenium 是什么?一句话,自动化测试工具.它支持各种浏览器,包括 Chrome,Safari,Firefox 等主流界面式浏览器,如果你在这些浏览器里面安装一个 Seleni ...

随机推荐

Java内存管理-探索Java中字符串String（十二）
做一个积极的人编码.改bug.提升自己我有一个乐园,面向编程,春暖花开! 一.初识String类首先JDK API的介绍: public final class String extends O ...
css———详解height与line_height
定义 height指的是块级别元素的高度: line-height指的是元素内容的高度. height和line-height的联系 CSS中起高度作用的应该就是height以及line-height ...
JavaScript笔记(5)
1.DOM操作常用的DOM操作 document.getElementById(id); //返回指定id的元素,通用 document.getElementsByTagName(tagName); ...
java进程被OOM干掉问题记录
异常现象:用户环境部署了一台iserver,访问一阵后,进程没了分析: 1.bin目录下没有崩溃日志,在tomcat的访问日志里面也没有看到有用的信息.iserver.log里面也没有信息 2. ...
CI/CD持续集成小结
一.概念什么是devops,基于Gitlab从零开始搭建自己的持续集成流水线(Pipeline) https://blog.csdn.net/chengzi_comm/article/details ...
easyUi的组合表格
公司之前的项目是用easyui写的里面还混搭着php...把分支下来,有点蒙.晚上回来恶补一下吧,今天渲染这个表格,我开始自己写假数据,然后用ajax操作再使用 obj.datagrid('loadD ...
Delphi 对象的特性
myBatis的坑 01 %的坑框架内置的小BUG
<select id="queryUserLikeUserName" resultType="cn.itcast.pojo.User"> selec ...
sklearn--决策树和基于决策树的集成模型
一.决策树决策树一般以选择属性的方式不同分为id3(信息增益),c4.5(信息增益率),CART(基尼系数),只能进行线性的分割,是一种贪婪的算法,其中sklearn中的决策树分为回归树和分类树两种 ...
关于linux一些备份、还原，压缩，归档的命令
15.1 gzipgzip(1) 是GNU的压缩程序.它只对单个文件进行压缩.基本用法如下:$ gzip filename程序执行以后,文件名会变成filename.gz,而且一般情况下大小会比原文件 ...

selenium知识点

1. 导包

2. 创建 webdriver

3. 操作

4 例子 -- 爬去拉钩网招聘信息

5. Selenium 的 WebDriverWait

selenium知识点的更多相关文章

随机推荐

热门专题