selenium操作浏览器模块

selenium模块用途

selenuim原先多用于测试部门测试，由于它可以操作浏览器，有时候也用于爬虫领域

优点:操作浏览器访问网站

缺点:速度较慢

下载模块

# 下载模块

pip3 install selenium

"""selenuim由于需要操作浏览器，所以在下载模块的基础之上还需要下载一个操作浏览器的驱动文件"""

# 下载驱动

操作不同的浏览器需要下载不同的驱动，我们统一使用谷歌

驱动文件可以存放在两个地方

    1.项目的根目录下(不推荐)

    2.将下载好的驱动文件放到python文件夹里面的scripts目录中(推荐)

http://npm.taobao.org/mirrors/chromedriver/2.35/　

if mac系统：

    然后将解压后的chromedriver移动到/usr/local/bin目录下 

注意:selenium3默认支持的webdriver是Firfox，而Firefox需要安装geckodriver 下载链接:https://github.com/mozilla/geckodriver/releases

基本使用方式

# 基本使用

from selenium import webdriver

import time

# 打开谷歌浏览器

bro = webdriver.Chrome()

#其余浏览器

# bro = webdriver.Firefox()

# bro = webdriver.Safari()

# bro = webdriver.Ie()

# bro = webdriver.Edge()

# 访问网站

bro.get('https://www.jd.com')

time.sleep(5)

# 自动关闭浏览器

bro.close()

自动打开京东或百度搜索定义物品

from selenium import webdriver

import time

# 模拟键盘按键

from selenium.webdriver.common.keys import Keys

# 打开谷歌浏览器

bro = webdriver.Chrome()

# bro = webdriver.Firefox()

# bro = webdriver.Safari()

# bro = webdriver.Ie()

# bro = webdriver.Edge()

# 访问网站

bro.get('https://www.baidu.com')

inputEle = bro.find_element_by_id('kw')

# inputEle = bro.find_element_by_id('key') # 京东

inputEle.send_keys("美女")

inputEle.send_keys(Keys.ENTER)

time.sleep(10)

bro.close()

selenuim模块登录百度

# 1、find_element_by_id   根据id找

# 2、find_element_by_link_text     根据链接名字找到控件（a标签的文字）

# aEle = bro.find_element_by_link_text('新闻')

# print(aEle.text)

# 3、find_element_by_partial_link_text   根据链接名字找到控件（a标签的文字）模糊查询

# 4、find_element_by_tag_name       根据标签名

# 5、find_element_by_class_name     根据类名

# 6、find_element_by_name           根据属性名

# 7、find_element_by_css_selector   根据css选择器
# 8、find_element_by_xpath
　　"""
　　XML:
　　　　用途：1.配置文件
            2.前端页面（类似于HTML）
                odoo框架
                    erp 前端界面使用的就是XML
　　"""

from selenium import webdriver

import time

bro=webdriver.Chrome()

bro.get("https://www.baidu.com")

bro.implicitly_wait(10)

"""

#d1  等价于 id='d1'

.c1  等价于 class='c1'

div p  找div里面所有的p(后代)

div > p  找div里面第一层级的p(儿子)

"""

# 利用selenuim模拟百度登录操作

# 查找到登录的a标签

aEle = bro.find_element_by_link_text('登录')

# 点击登录标签

aEle.click()

# 查找用户名登录标签

a1Ele = bro.find_element_by_id('TANGRAM__PSP_11__footerULoginBtn')

# 点击

a1Ele.click()

# 查找用户名和密码标签输入内容

usernameEle = bro.find_element_by_id('TANGRAM__PSP_11__userName')

usernameEle.send_keys('admin123')

time.sleep(1)

passwordEle = bro.find_element_by_id('TANGRAM__PSP_11__password')

passwordEle.send_keys('admin123')

# 查找登录按钮 点击即可

btnEle = bro.find_element_by_id('TANGRAM__PSP_11__submit')

btnEle.click()

time.sleep(5)

bro.close()  # 主动关闭页面

爬取京东商品信息

# 常用方法

from selenium import webdriver

import time

from selenium.webdriver.common.keys import Keys

bro = webdriver.Chrome()

bro.get("http://www.jd.com")

bro.implicitly_wait(10)  # 延时等待

# 查找搜索商品的input框

inputEle = bro.find_element_by_id('key')

# 输入商品内容

inputEle.send_keys('手机')

# 按下回车确认搜索内容

inputEle.send_keys(Keys.ENTER)

# 研究页面商品规律 发现是一个个的li标签 都具有class属性

goods_li = bro.find_elements_by_class_name('gl-item')

# 分析每个li里面的数据特征

for good in goods_li:

    html标签class中p-img下的a标签下的img标签中的src

    img_url = good.find_element_by_css_selector('.p-img a img').get_attribute('src')

    if not img_url:

        img_url = 'https:' + good.find_element_by_css_selector('.p-img a img').get_attribute('data-lazy-img')

    url = good.find_element_by_css_selector('.p-img a').get_attribute('href')

    price = good.find_element_by_css_selector('.p-price i').text

    name = good.find_element_by_css_selector('.p-name em').text.replace('\n', '')

    commit = good.find_element_by_css_selector('.p-commit a').text

    print('''

          商品链接：%s

          商品图片：%s

          商品名字：%s

          商品价格：%s

          商品评论数：%s

          ''' % (url, img_url, name, price, commit))

time.sleep(5)

#主动关闭链接

bro.close()

from selenium import webdriver

import time

from selenium.webdriver.common.keys import Keys

bro = webdriver.Chrome()

bro.get("https://www.jd.com")

# WebElement延时等待

bro.implicitly_wait(10)

# 分析每个li里面的数据特征

def get_goods(bro):

    print("---------------------------------------")

    # 研究页面商品规律 发现是一个个的li标签 都具有class属性

    goods_li = bro.find_elements_by_class_name('gl-item')

    # html标签class中p-img下的a标签下的img标签中的src

    for good in goods_li:

        img_url = good.find_element_by_css_selector('.p-img a img').get_attribute('src')

        if not img_url:

            img_url = 'https:' + good.find_element_by_css_selector('.p-img a img').get_attribute('data-lazy-img')

        url = good.find_element_by_css_selector('.p-img a').get_attribute('href')

        price = good.find_element_by_css_selector('.p-price i').text

        name = good.find_element_by_css_selector('.p-name em').text.replace('\n', '')

        commit = good.find_element_by_css_selector('.p-commit a').text

        print('''

            商品链接：%s

            商品图片：%s

            商品名字：%s

            商品价格：%s

            商品评论数：%s

            ''' % (url, img_url, name, price, commit))

        next_page = bro.find_element_by_partial_link_text("下一页")

        time.sleep(1)

        next_page.click()

        time.sleep(1)

        get_goods(bro)

input_search = bro.find_element_by_id("key")

input_search.send_keys("手机")

input_search.send_keys(Keys.ENTER)

# 进入另外一个页面

try:

    get_goods(bro)

except Exception as e:

    print("结束")

finally:

    bro.close()

# time.sleep(5)

# #主动关闭链接

# bro.close()

京东翻页代码

selenium操作浏览器模块的更多相关文章

[Python爬虫]使用Selenium操作浏览器订购火车票
这个专题主要说的是Python在爬虫方面的应用,包括爬取和处理部分 [Python爬虫]使用Python爬取动态网页-腾讯动漫(Selenium) [Python爬虫]使用Python爬取静态网页-斗 ...
每次用 selenium 操作浏览器都还原了 (比如没有浏览器历史记录)
每次用 selenium 操作浏览器都还原了 (比如没有浏览器历史记录)
selenium操作浏览器的前进和后退
前进关键字:driver.forward() 后退关键字:driver.back() 测试对象:1.https://www.baidu.com/ 2.https://www.sogou.com/ 实例 ...
『心善渊』Selenium3.0基础 — 3、使用Selenium操作浏览器对象的基础API
目录 1.导入Selenium库 2.创建浏览器对象 3.浏览器窗口大小设置 4.浏览器位置设置 5.请求访问网址 6.浏览器页面前进.后退和刷新 7.关闭浏览器相比于高大上的各种Selenium进 ...
『心善渊』Selenium3.0基础 — 17、Selenium操作浏览器窗口的滚动条
目录 1.为什么操作滚动条 2.Selenium如何操作滚动条 3.Selenium操作滚动条方法 4.操作滚动条示例 5.下拉至聚焦元素的位置 (1)实现步骤: (2)实现示例: 1.为什么操作滚动 ...
『心善渊』Selenium3.0基础 — 18、使用Selenium操作浏览器的弹窗
目录 1.操作浏览器自带弹窗 2.操作浏览器页面自定义弹窗 1.操作浏览器自带弹窗 (1)说明: webdriver中处理JavaScript所生成的alert.confirm 以及prompt 弹窗 ...
selenium操作浏览器cookie方法
/** * 操作浏览器的cookie */ @Test public void testCookie()throws Exception{ drive ...
selenium操作浏览器窗口最大化和刷新
实际测试过程中经常遇到打开一个页面并不是全屏显示,但是却希望它能够全屏显示或者新增一条记录后需要刷新一下看能不能再列表中正常显示. 于是就有了今天的关于对浏览器窗口的最大化和刷新页面.需要说明的一点: ...
[Selenium] 操作浏览器 Cookies
WebDriver 提供了一系列 Cookies 的操作来获取.填写.删除 Cookies 的方法,节省了多次在登陆页面的查找元素并填写登录信息的时间. 1)获取 Cookies ,并保存到文件中以备 ...
selenium操作浏览器
import org.openqa.selenium.WebDriver; import common.StartFireFox; public class TestBrowser { public ...

随机推荐

在 SwiftUI 中使用 Metal Shader
简介从 iOS 17/macOS 14 开始,SwiftUI 支持使用 Metal shader 来实现一些特效.主要提供三个 View Modifier:colorEffect. distorti ...
【JVM】关于JVM，你需要知道这些！！
写在前面最近,一直有小伙伴让我整理下关于JVM的知识,经过十几天的收集与整理,初版算是整理出来了.希望对大家有所帮助. JDK 是什么? JDK 是用于支持 Java 程序开发的最小环境. Java ...
初识Hbase架构以及数据读写（尚硅谷）
#树状数组，dp#SGU 521 North-East
题目在平面上有 $n$ 个点,现在有一个人要从某个点出发, 每次只能到达横纵坐标都超过原坐标的点,也就是 $x_j<x_i,y_j<y_i$ 如果他要经过最多的点,那么哪些点是可 ...
#线段树#洛谷 4340 [SHOI2016]随机序列
题目分析可以发现加号和减号会抵消掉,真正有用的答案就是第一段的乘积. 那也就是 $\sum_{i=1}^nS_i*2*3^{n-i-1}$,其中 $S_i$ 表示 $a_1$ 到 \( ...
#威佐夫博弈#洛谷 2252 [SHOI2002]取石子游戏
题目有两堆石子,数量任意,可以不同.游戏开始由两个人轮流取石子. 游戏规定,每次有两种不同的取法,一是可以在任意的一堆中取走任意多的石子: 二是可以在两堆中同时取走相同数量的石子.最后把石子全部取完 ...
Jetty的http-forwarded模块
启用http-forwarded模块,执行如下命令: java -jar $JETTY_HOME/start.jar --add-modules=http-forwarded 命令的输出,如下: IN ...
【Learning eBPF-3】一个 eBPF 程序的深入剖析
从这一章开始,我们先放下 BCC 框架,来看仅通过 C 语言如何实现一个 eBPF.如此一来,你会更加理解 BCC 所做的底层工作. 在这一章中,我们会讨论一个 eBPF 程序被执行的完整流程,如下图 ...
设置 BCompare 打开文件时的默认字符编码
每次比对 .h .cpp 文件,BCompare总是默认以西欧字符编码打开文件,导致中文都变成乱码了,还需要手动的修改文件字符编码,这样才能正常的显示.非常的不方便然后我们就需要设置默认的字符编码, ...
Qt 操作注册表
一.写入注册表 #include <QSettings> //实例 QSettings //参数 1:注册表位置 //参数 2:操作 windows 注册表 QSettings::Nati ...

selenium操作浏览器模块

selenium操作浏览器模块的更多相关文章

随机推荐

热门专题