豆瓣原创电子书每周推出数十本限时免费数目,一周免费期过后恢复原价。想着豆瓣原创书中有不少值得一看,便写了个脚本,免去一个个添加的烦恼。

使用了Windows下selenium+Python的组合,有较多的文档可以查阅,主要总结如下:

1、使用chrome浏览器:下载旧版本(52),新版本不兼容,下载chromedriver,放入chrome安装目录,于chrome.exe同目录,并添加到Path环境变量。

2、强大的元素定位:通过浏览器审查元素直接复制的xpath多为绝对定位,容易受网页结构调整的影响,稳定性不好。

  相对定位在确保唯一性的前提下,可以自己写,快准稳。一般通过@id段确保唯一,注意同类型list集的影响。

  xpath中by_link_text可以通过链接文字直接定位<a>元素,在用到特殊链接时很有效。

  by_xpath("//*[text()='限时特价']")  这个简直简单粗暴,直接定位文字内容。有点JS里innerHTML的意思。

3、标签页的切换:用handles = driver.window_handles 获取当前的标签页,再通过driver.switch_to.window(handles[1]) 切换。

4、元素过期:翻页和刷新页面后再获取元素,频频报错。一方面,刷新页面后必须进行新的元素获取,并操作新获取的元素,尽量把获取写在循环体内。

  另一方面,页面刷新时,网页的代码执行速度比网页渲染速度快,下面代码采取time.sleep(2)简单粗暴,强制延迟等待网页渲染完毕,再进行元素获取,否则报错元素不存在,或元素过期。

import selenium
import time
from selenium import webdriver
from selenium.webdriver.common.keys import Keys driver=webdriver.Chrome()
#打开豆瓣主站
driver.get('https://www.douban.com/')
#最大化
driver.maximize_window()
#输入用户名,密码
driver.find_element_by_id('form_email').send_keys('********')
driver.find_element_by_id('form_password').send_keys('******')
#点击登录
time.sleep(1)
driver.find_element_by_xpath('//*[@id="lzform"]/fieldset/div[3]/input').click()
time.sleep(3)
#打开阅读
driver.find_element_by_xpath('//*[@id="db-global-nav"]/div/div[4]/ul/li[7]/a').click()
time.sleep(2)
#切换到新打开的窗口
handles = driver.window_handles
driver.switch_to.window(handles[1])
time.sleep(2)
#打开免费
driver.find_element_by_link_text('免费').click()
time.sleep(2) #需要爬的页数
page=3
#已购买数量
book_is_read=0
#未购买数量
book_not_read=0 #外循环循环翻页
for j in range(0,page+1):
#本页循环数量
page_end=0
thisbooklist=0
time.sleep(2)
#内循环循环本页20条
for i in range(0,20):
time.sleep(2)
#只爬每周限时可选
driver.find_element_by_xpath("//*[text()='限时特价']").click()
time.sleep(2)
#获取本页书籍列表
booklists=driver.find_elements_by_xpath("//li[@class='item store-item']")
page_end=0 for booklist in booklists:
#获取阅读标志
isread=booklist.find_element_by_xpath(".//div[@class='action-buttons']/a").get_attribute("class")
#检查是否已经购买
if 'read' in isread:
page_end=page_end+1
continue
thisbooklist=booklist
break
#循环至列表最后一项跳出循环
if page_end>19:break
#进入书籍详情
thisbooklist.find_element_by_xpath('.//div[1]/a/img').click()
time.sleep(1)
#点击购买
driver.find_element_by_xpath("//span[@class='icon-add-to-bookshelf']").click()
#点击确定
time.sleep(2)
driver.find_element_by_xpath("//*[@id='ark-dialog']/div[2]/div[2]/button[1]").click()
time.sleep(3)
#返回上一页
driver.back()
time.sleep(2)
#刷新
driver.refresh()
# 打开下一页
time.sleep(2)
#翻页
driver.find_element_by_xpath('/html/body/div/div/article/div[2]/div[2]/div/ul/li[10]/a').click() time.sleep(2)
driver.close()

python selenium 练习 自动获取豆瓣阅读当前特价书籍 chrome 元素定位 窗口切换 元素过期的更多相关文章

  1. python编写的自动获取代理IP列表的爬虫-chinaboywg-ChinaUnix博客

    python编写的自动获取代理IP列表的爬虫-chinaboywg-ChinaUnix博客 undefined Python多线程抓取代理服务器 | Linux运维笔记 undefined java如 ...

  2. 开源you-get项目爬虫,以及基于python+selenium的自动测试利器

    写在前面 爬虫和自动测试,对于python来说是最合适不过也是最擅长的. 开源的项目也很多,例如you-get项目https://github.com/soimort/you-get.盗链和爬虫神器. ...

  3. python - web自动化测试 - 元素操作 - 窗口切换

    # -*- coding:utf-8 -*- ''' @project: web学习 @author: Jimmy @file: 元素操作-切换.py @ide: PyCharm Community ...

  4. Python+Selenium学习--自动生成HTML测试报告

    前言 在脚本运行完成之后,除了在log.txt 文件看到运行日志外,我们更希望能生一张漂亮的测试报告来展示用例执行的结果.        HTMLTestRunner 是Python 标准库的unit ...

  5. 用python+selenium从百度获取本地明日的天气信息并根据温度情况设置提醒

    从百度天气获取当地明天的天气情况,如果明天下雨,请发送邮件通知全体同事带伞, 如果明天气温低于10度,请邮件提醒同事注意保暖,如果气温高于30度则提醒同事注意高温. 假设存在发送邮件的方法self.s ...

  6. Python selenium 文件自动下载 (自动下载器)

    MyGithub:https://github.com/williamzxl 最新代码已经上传到Github,以下版本为stupid版本. 由于在下载过程中需要下载不同文件,所以可以把所有类型放在Va ...

  7. python+selenium实现自动抢票

    使用说明 程序运行开始,需要输入出发地,目的地,出发时间,乘客信息,车次:乘客信息和车次可以输入多个 刚刚开始学习爬虫,selenium仅仅是解放了双手,运行效率不是很高: 程序运行时会打开chrom ...

  8. Python + Selenium 练习篇 - 获取页面所有邮箱

    代码如下: # coding=utf-8import re    #python中利用正则,需要导入re模块from selenium import webdriverdriver = webdriv ...

  9. Python+selenium整合自动发邮件功能

    主要实现的目的是:自动将测试报告以邮件的形式通知相关人员 from HTMLTestRunner import HTMLTestRunner import HTMLTestReport from em ...

随机推荐

  1. 2017.11.1 微型计算机原理与接口技术-----第七章 中断系统与8237A DMA控制器

    第七章 微型计算机原理与接口技术-----中断系统与8237A DMA控制器 (1)数据传送的两种方式:中断方式和直接存储器存取方式(DMA):中断是微处理器与外部设备交换信息的一种方式:DMA是存储 ...

  2. json 序列化和反序列化的3个方法

    https://www.cnblogs.com/caofangsheng/p/5687994.html

  3. Spring 远程调用工具类RestTemplateUtils

    Spring 远程调用Rest服务工具类,包含Get.Post.Put.Delete四种调用方式. 依赖jar <dependency> <groupId>org.spring ...

  4. CPP-基础:类

    1,成员访问属性 一,对于类的实现来说: private:类内部(包括类域范围内)可访问. protect:类内部(包括类域范围内)或 派生类类内部(包括类域范围内)可访问. public: 类内部和 ...

  5. 使用phpExcel将数据批量导出

    if(isset($_POST['export']) && $_POST['export'] == '导出所选数据') { //此处为多选框已勾选的数据 $export_id=$_PO ...

  6. json对象与字符串相互转换

    JSON 语法 JSON 语法规则 在 JS 语言中,一切都是对象.因此,任何支持的类型都可以通过 JSON 来表示,例如字符串.数字.对象.数组等.但是对象和数组是比较特殊且常用的两种类型: 对象表 ...

  7. LeetCode111. Minimum Depth of Binary Tree

    题目 给定一个二叉树,找出其最小深度. 最小深度是从根节点到最近叶子节点的最短路径上的节点数量. 说明: 叶子节点是指没有子节点的节点. 示例: 给定二叉树 [3,9,20,null,null,15, ...

  8. 牛客小白月赛1 J おみやげをまらいました 【MAP】

    链接:https://www.nowcoder.com/acm/contest/85/J おみやげをまらいました!    蛙蛙还是给你带来了礼物.但它有个小小的要求,那就是你得在石头剪刀布上赢过它才能 ...

  9. linux下 利用 rz 命令上传文件

    1. 如何安装? 1)编译安装  root 账号登陆后,依次执行以下命令: # cd /tmp # wget http://www.ohse.de/uwe/releases/lrzsz-0.12.20 ...

  10. css页面出现滚动条左右跳动

    问题描述:页面首次加载的时候内容是一屏,不会出现纵向滚动条,但是当点击加载的内容更多时页面会出现左右跳动一下的情况.出现跳动的主要原因就是出现了滚动条,滚动条的宽度影响了内容区域的宽度. 1.查看导航 ...