python selenium 练习自动获取豆瓣阅读当前特价书籍 chrome 元素定位窗口切换元素过期

豆瓣原创电子书每周推出数十本限时免费数目，一周免费期过后恢复原价。想着豆瓣原创书中有不少值得一看，便写了个脚本，免去一个个添加的烦恼。

使用了Windows下selenium+Python的组合，有较多的文档可以查阅，主要总结如下：

1、使用chrome浏览器：下载旧版本（52），新版本不兼容，下载chromedriver，放入chrome安装目录，于chrome.exe同目录，并添加到Path环境变量。

2、强大的元素定位：通过浏览器审查元素直接复制的xpath多为绝对定位，容易受网页结构调整的影响，稳定性不好。

　　相对定位在确保唯一性的前提下，可以自己写，快准稳。一般通过@id段确保唯一，注意同类型list集的影响。

　　xpath中by_link_text可以通过链接文字直接定位<a>元素，在用到特殊链接时很有效。

　　by_xpath("//*[text()='限时特价']") 这个简直简单粗暴，直接定位文字内容。有点JS里innerHTML的意思。

3、标签页的切换：用handles = driver.window_handles 获取当前的标签页，再通过driver.switch_to.window(handles[1]) 切换。

4、元素过期：翻页和刷新页面后再获取元素，频频报错。一方面，刷新页面后必须进行新的元素获取，并操作新获取的元素，尽量把获取写在循环体内。

　　另一方面，页面刷新时，网页的代码执行速度比网页渲染速度快，下面代码采取time.sleep(2)简单粗暴，强制延迟等待网页渲染完毕，再进行元素获取，否则报错元素不存在，或元素过期。

import selenium

import time

from selenium import webdriver

from selenium.webdriver.common.keys import Keys

driver=webdriver.Chrome()

#打开豆瓣主站

driver.get('https://www.douban.com/')

#最大化

driver.maximize_window()

#输入用户名，密码

driver.find_element_by_id('form_email').send_keys('********')

driver.find_element_by_id('form_password').send_keys('******')

#点击登录

time.sleep(1)

driver.find_element_by_xpath('//*[@id="lzform"]/fieldset/div[3]/input').click()

time.sleep(3)

#打开阅读

driver.find_element_by_xpath('//*[@id="db-global-nav"]/div/div[4]/ul/li[7]/a').click()

time.sleep(2)

#切换到新打开的窗口

handles = driver.window_handles

driver.switch_to.window(handles[1])

time.sleep(2)

#打开免费

driver.find_element_by_link_text('免费').click()

time.sleep(2)

#需要爬的页数

page=3

#已购买数量

book_is_read=0

#未购买数量

book_not_read=0

#外循环循环翻页

for j in range(0,page+1):

    #本页循环数量

    page_end=0

    thisbooklist=0

    time.sleep(2)

    #内循环循环本页20条

    for i in range(0,20):

        time.sleep(2)

        #只爬每周限时可选

        driver.find_element_by_xpath("//*[text()='限时特价']").click()

        time.sleep(2)

        #获取本页书籍列表

        booklists=driver.find_elements_by_xpath("//li[@class='item store-item']")

        page_end=0

        for booklist in booklists:

            #获取阅读标志

            isread=booklist.find_element_by_xpath(".//div[@class='action-buttons']/a").get_attribute("class")

            #检查是否已经购买

            if 'read' in isread:

                page_end=page_end+1

                continue

            thisbooklist=booklist

            break

        #循环至列表最后一项跳出循环

        if page_end>19:break

        #进入书籍详情

        thisbooklist.find_element_by_xpath('.//div[1]/a/img').click()

        time.sleep(1)

        #点击购买

        driver.find_element_by_xpath("//span[@class='icon-add-to-bookshelf']").click()

        #点击确定

        time.sleep(2)

        driver.find_element_by_xpath("//*[@id='ark-dialog']/div[2]/div[2]/button[1]").click()

        time.sleep(3)

        #返回上一页

        driver.back()

        time.sleep(2)

        #刷新

        driver.refresh()

    # 打开下一页

    time.sleep(2)

    #翻页

    driver.find_element_by_xpath('/html/body/div/div/article/div[2]/div[2]/div/ul/li[10]/a').click()

time.sleep(2)

driver.close()

python selenium 练习自动获取豆瓣阅读当前特价书籍 chrome 元素定位窗口切换元素过期的更多相关文章

python编写的自动获取代理IP列表的爬虫-chinaboywg-ChinaUnix博客
python编写的自动获取代理IP列表的爬虫-chinaboywg-ChinaUnix博客 undefined Python多线程抓取代理服务器 | Linux运维笔记 undefined java如 ...
开源you-get项目爬虫，以及基于python+selenium的自动测试利器
写在前面爬虫和自动测试,对于python来说是最合适不过也是最擅长的. 开源的项目也很多,例如you-get项目https://github.com/soimort/you-get.盗链和爬虫神器. ...
python - web自动化测试 - 元素操作 - 窗口切换
# -*- coding:utf-8 -*- ''' @project: web学习 @author: Jimmy @file: 元素操作-切换.py @ide: PyCharm Community ...
Python+Selenium学习--自动生成HTML测试报告
前言在脚本运行完成之后,除了在log.txt 文件看到运行日志外,我们更希望能生一张漂亮的测试报告来展示用例执行的结果. HTMLTestRunner 是Python 标准库的unit ...
用python+selenium从百度获取本地明日的天气信息并根据温度情况设置提醒
从百度天气获取当地明天的天气情况,如果明天下雨,请发送邮件通知全体同事带伞, 如果明天气温低于10度,请邮件提醒同事注意保暖,如果气温高于30度则提醒同事注意高温. 假设存在发送邮件的方法self.s ...
Python selenium 文件自动下载（自动下载器）
MyGithub:https://github.com/williamzxl 最新代码已经上传到Github,以下版本为stupid版本. 由于在下载过程中需要下载不同文件,所以可以把所有类型放在Va ...
python+selenium实现自动抢票
使用说明程序运行开始,需要输入出发地,目的地,出发时间,乘客信息,车次:乘客信息和车次可以输入多个刚刚开始学习爬虫,selenium仅仅是解放了双手,运行效率不是很高: 程序运行时会打开chrom ...
Python + Selenium 练习篇 - 获取页面所有邮箱
代码如下: # coding=utf-8import re #python中利用正则,需要导入re模块from selenium import webdriverdriver = webdriv ...
Python+selenium整合自动发邮件功能
主要实现的目的是:自动将测试报告以邮件的形式通知相关人员 from HTMLTestRunner import HTMLTestRunner import HTMLTestReport from em ...

随机推荐

POJ-3111 K Best---二分求最大化平均值
题目链接: https://cn.vjudge.net/problem/POJ-3111 题目大意: 卖宝救夫:Demy要卖珠宝,n件分别价值vi 重 wi,她希望保留k件使得最大. 解题思路: # ...
2017.10.3 JDBC访问数据库的建立过程
1·JDBC访问数据库,其访问流程: (1)注册驱动 (2)建立连接(Connection) (3)创建数据库操作对象用于执行SQL语句 (4)执行语句 (5)处理执行结果 (6)释放资源 2·注册驱 ...
memcache 基本操作
输入 telnet localhost 11211 步骤: 1.输入 set hans 0 0 3 回车 2. 输入 123 回车 3. get hans 回车删除操作,输入 delete h ...
Linux下C程序进程地址空间布局[转]
我们在学习C程序开发时经常会遇到一些概念:代码段.数据段.BSS段(Block Started by Symbol) .堆(heap)和栈(stack).先看一张教材上的示意图(来源,<UNIX ...
[USACO07FEB]银牛派对Silver Cow Party---最短路模板题
银牛排队对于我这种蒟蒻来说,还是不要跑一次单元最短路.跑两次好写呀(-￣▽￣)- 而题目中是有向图.如果如果按照题意进行最短路的话.就会出现一个单终点最短路和一个单起点最短路对于单起点自然就是套模 ...
C#流程控制语句
C#流程控制语句一.选择语句当程序中需要进行两个或两个以上的选择时,可以根据条件的判断来选择将要执行的一组语句. ?if语句 ?switch语句二.循环语句循环语句是对一个程序模块进行的重复操 ...
CSS 滤镜技巧与细节
本文主要介绍 CSS 滤镜的不常用用法,希望能给读者带来一些干货! 注意:ie不兼容本文所描述的滤镜,指的是 CSS3 出来后的滤镜,不是 IE 系列时代的滤镜,话不多说,直接开车,语法如下: { ...
JAVA文件操作工具类（读、增、删除、复制）
使用JAVA的JFinal框架 1.上传文件模型类UploadFile /** * Copyright (c) 2011-2017, James Zhan 詹波 (jfinal@126.com). * ...
【赛时总结】◇赛时·VII◇ Atcoder ABC-106
[赛时·VII] ABC-106 一条比赛时莫名其妙发了半个小时呆的菜鸡&咸鱼得到了自己应有的下场……279th. Rating:1103(+) 终于AK,一次通过…… ◇ 简单总结 ABC还 ...
Spring 中IOC（控制反转）&& 通过SET方式为属性注入值 && Spring表达式
### 1. Spring IoC IoC:Inversion of control:控制反转:在传统开发模式下,对象的创建过程和管理过程都是由开发者通过Java程序来实现的,操作权在开发者的Java ...

python selenium 练习 自动获取豆瓣阅读当前特价书籍 chrome 元素定位 窗口切换 元素过期

python selenium 练习 自动获取豆瓣阅读当前特价书籍 chrome 元素定位 窗口切换 元素过期的更多相关文章

随机推荐

热门专题

python selenium 练习自动获取豆瓣阅读当前特价书籍 chrome 元素定位窗口切换元素过期

python selenium 练习自动获取豆瓣阅读当前特价书籍 chrome 元素定位窗口切换元素过期的更多相关文章